티스토리 뷰
분산 추정, 왜 \(n\)이 아니라 \(n-1\)로 나눠야 하는가
— 불편 추정량과 자유도의 수학적·논리적 정당화
📌 1. 문제의식: “왜 굳이 귀찮게 \(n-1\)로 나누는가?”
표본에서 분산을 추정할 때, 우리는 거의 본능적으로 이렇게 계산합니다:
\[ s^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 \]
하지만 자연스럽게 이런 질문이 나옵니다:
“왜 그냥 \(n\)으로 안 나누고, 꼭 \(n-1\)로 나눠야 하죠?”
“수학적으로 무슨 차이가 있길래 이게 더 정답이라고 하는 거죠?”
이 질문은 통계학에서 가장 많이 배우지만 가장 적게 이해되는 질문 중 하나입니다. 지금부터 이걸 철저하게 이해시켜 드리겠습니다.
📌 2. 목표: 모집단 분산 \(\sigma^2\)의 불편 추정량 구하기
🎯 모수:
- 모집단 평균: \(\mu = E[X]\)
- 모집단 분산: \(\sigma^2 = E[(X - \mu)^2]\)
🎯 추정량들:
이름 | 수식 | 설명 |
---|---|---|
편의 추정량 (biased) | \(\hat{\sigma}^2 = \frac{1}{n} \sum (X_i - \bar{X})^2\) | 편향 있음 |
불편 추정량 (unbiased) | \(\tilde{\sigma}^2 = \frac{1}{n-1} \sum (X_i - \bar{X})^2\) | 기대값이 \(\sigma^2\) |
📌 3. 수학적 증명: 왜 \(n\)으로 나누면 편향이 생기는가?
⚙️ Step 1: 기본 구조
우리는 다음 기대값을 구합니다:
\[ E\left[ \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 \right] \]
이 식의 기대값이 \(\sigma^2\)보다 작다는 것을 보이는 것이 목표입니다.
⚙️ Step 2: 분산의 대체 표현
분산은 다음과 같이 표현됩니다:
\[ \sum (X_i - \bar{X})^2 = \sum (X_i - \mu)^2 - n(\bar{X} - \mu)^2 \]
→ 이 식은 분산 분해(identity for variance decomposition)의 고전적 결과입니다. → 전체 오차 = 개별 오차 − 평균의 오차
⚙️ Step 3: 기대값 계산
양변의 기대값을 구합니다:
\[ E\left[\sum (X_i - \bar{X})^2\right] = E\left[ \sum (X_i - \mu)^2 - n(\bar{X} - \mu)^2 \right] \]
\[ = \sum E[(X_i - \mu)^2] - n E[(\bar{X} - \mu)^2] \]
각 항은 다음과 같습니다:
- \(\sum E[(X_i - \mu)^2] = n \sigma^2\)
- \(E[(\bar{X} - \mu)^2] = \frac{\sigma^2}{n}\)
대입하면:
\[ E\left[\sum (X_i - \bar{X})^2\right] = n \sigma^2 - \sigma^2 = (n - 1)\sigma^2 \]
⚙️ Step 4: 둘 다 정리하면
\[ E\left[ \frac{1}{n} \sum (X_i - \bar{X})^2 \right] = \frac{n-1}{n} \sigma^2 \]
\[ E\left[ \frac{1}{n-1} \sum (X_i - \bar{X})^2 \right] = \sigma^2 \]
→ \(n\)으로 나누면 항상 작다. → 편향 있음
→ \(n-1\)로 나누면 정확히 \(\sigma^2\). → 불편성 성립
📌 4. 자유도(degrees of freedom)란 무엇인가?
자유도란 “통계적으로 자유롭게 변할 수 있는 독립적인 수의 개수”입니다.
- 표본 \(n\)개에서
- 평균 \(\bar{X}\)를 이미 계산했기 때문에
- 나머지 \(n - 1\)개만 자유롭게 움직일 수 있습니다.
즉, 평균을 이미 사용했기 때문에 한 개의 정보는 ‘소모되었다’는 것입니다. 그래서 오차 제곱합을 평균낼 때는 \(n-1\)으로 나눠야 합니다.
📌 5. 수치 예시로 확인해보자
모집단: \(\{1, 2, 3, 4, 5\}\) → \(\mu = 3\), \(\sigma^2 = 2.5\)
표본: \(\{2, 4, 5\}\)
\[ \bar{X} = \frac{2 + 4 + 5}{3} = 3.67 \]
\[ \sum (X_i - \bar{X})^2 = (2 - 3.67)^2 + (4 - 3.67)^2 + (5 - 3.67)^2 = 2.78 + 0.11 + 1.76 = 4.65 \]
- 편의 추정량: \(\hat{\sigma}^2 = \frac{4.65}{3} \approx 1.55\)
- 불편 추정량: \(\tilde{\sigma}^2 = \frac{4.65}{2} \approx 2.325\)
→ 실제 모집단 분산과 비교해보면 불편 추정량이 훨씬 더 가까움
📌 6. 비교 정리
구분 | 수식 | 기대값 | 불편성 여부 |
---|---|---|---|
편의 추정량 | \(\frac{1}{n} \sum (X_i - \bar{X})^2\) | \(\frac{n-1}{n} \sigma^2\) | ❌ |
불편 추정량 | \(\frac{1}{n-1} \sum (X_i - \bar{X})^2\) | \(\sigma^2\) | ✅ |
✅ 결론
- \(n\)으로 나눈 표본분산은 언제나 실제보다 작게 추정합니다.
- 이유는 \(\bar{X}\) 계산 시 자유도 1개를 사용했기 때문입니다.
- 따라서 \(n-1\)로 나누어야 모집단 분산 \(\sigma^2\)에 대한 불편 추정량이 됩니다.
📌 이것이 통계학에서 ‘자유도를 고려한 보정’이 반드시 필요한 이유입니다.
'통계학 > 통계이론' 카테고리의 다른 글
IID(Independent and Identically Distributed)란? (0) | 2025.04.18 |
---|---|
표본분산으로 모분산 추정, n-1로 나누어야 하는 이유. 불편성 (0) | 2025.04.12 |
불편성(unbiasedness)란? (0) | 2025.04.12 |
- Total
- Today
- Yesterday
- 윤성우
- 인프런
- 통계
- 인지부조화
- 일문따
- K-MOOC
- 일본어문법무작정따라하기
- 백준
- c++
- 회계
- 류근관
- 뇌와행동의기초
- C/C++
- Python
- 심리학
- 티스토리챌린지
- 보세사
- 코딩테스트
- 강화학습
- 사회심리학
- 오블완
- 열혈프로그래밍
- 파이썬
- stl
- 통계학
- 정보처리기사
- C
- 일본어
- 데이터분석
- 여인권
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |