티스토리 뷰

반응형



분산 추정, 왜 \(n\)이 아니라 \(n-1\)로 나눠야 하는가

— 불편 추정량과 자유도의 수학적·논리적 정당화



📌 1. 문제의식: “왜 굳이 귀찮게 \(n-1\)로 나누는가?”

표본에서 분산을 추정할 때, 우리는 거의 본능적으로 이렇게 계산합니다:

\[ s^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 \]

하지만 자연스럽게 이런 질문이 나옵니다:

“왜 그냥 \(n\)으로 안 나누고, 꼭 \(n-1\)로 나눠야 하죠?”
“수학적으로 무슨 차이가 있길래 이게 더 정답이라고 하는 거죠?”

이 질문은 통계학에서 가장 많이 배우지만 가장 적게 이해되는 질문 중 하나입니다. 지금부터 이걸 철저하게 이해시켜 드리겠습니다.



📌 2. 목표: 모집단 분산 \(\sigma^2\)의 불편 추정량 구하기

🎯 모수:

  • 모집단 평균: \(\mu = E[X]\)
  • 모집단 분산: \(\sigma^2 = E[(X - \mu)^2]\)

🎯 추정량들:

이름 수식 설명
편의 추정량 (biased) \(\hat{\sigma}^2 = \frac{1}{n} \sum (X_i - \bar{X})^2\) 편향 있음
불편 추정량 (unbiased) \(\tilde{\sigma}^2 = \frac{1}{n-1} \sum (X_i - \bar{X})^2\) 기대값이 \(\sigma^2\)



📌 3. 수학적 증명: 왜 \(n\)으로 나누면 편향이 생기는가?

⚙️ Step 1: 기본 구조

우리는 다음 기대값을 구합니다:

\[ E\left[ \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 \right] \]

이 식의 기대값이 \(\sigma^2\)보다 작다는 것을 보이는 것이 목표입니다.

 

⚙️ Step 2: 분산의 대체 표현

분산은 다음과 같이 표현됩니다:

\[ \sum (X_i - \bar{X})^2 = \sum (X_i - \mu)^2 - n(\bar{X} - \mu)^2 \]

→ 이 식은 분산 분해(identity for variance decomposition)의 고전적 결과입니다. → 전체 오차 = 개별 오차 − 평균의 오차

 

⚙️ Step 3: 기대값 계산

양변의 기대값을 구합니다:

\[ E\left[\sum (X_i - \bar{X})^2\right] = E\left[ \sum (X_i - \mu)^2 - n(\bar{X} - \mu)^2 \right] \]

\[ = \sum E[(X_i - \mu)^2] - n E[(\bar{X} - \mu)^2] \]

각 항은 다음과 같습니다:

  • \(\sum E[(X_i - \mu)^2] = n \sigma^2\)
  • \(E[(\bar{X} - \mu)^2] = \frac{\sigma^2}{n}\)

대입하면:

\[ E\left[\sum (X_i - \bar{X})^2\right] = n \sigma^2 - \sigma^2 = (n - 1)\sigma^2 \]

 

⚙️ Step 4: 둘 다 정리하면

\[ E\left[ \frac{1}{n} \sum (X_i - \bar{X})^2 \right] = \frac{n-1}{n} \sigma^2 \]

\[ E\left[ \frac{1}{n-1} \sum (X_i - \bar{X})^2 \right] = \sigma^2 \]

\(n\)으로 나누면 항상 작다. → 편향 있음
\(n-1\)로 나누면 정확히 \(\sigma^2\). → 불편성 성립



📌 4. 자유도(degrees of freedom)란 무엇인가?

자유도란 “통계적으로 자유롭게 변할 수 있는 독립적인 수의 개수”입니다.
  • 표본 \(n\)개에서
  • 평균 \(\bar{X}\)를 이미 계산했기 때문에
  • 나머지 \(n - 1\)개만 자유롭게 움직일 수 있습니다.

즉, 평균을 이미 사용했기 때문에 한 개의 정보는 ‘소모되었다’는 것입니다. 그래서 오차 제곱합을 평균낼 때는 \(n-1\)으로 나눠야 합니다.



📌 5. 수치 예시로 확인해보자

모집단: \(\{1, 2, 3, 4, 5\}\) → \(\mu = 3\), \(\sigma^2 = 2.5\)

표본: \(\{2, 4, 5\}\)

\[ \bar{X} = \frac{2 + 4 + 5}{3} = 3.67 \]

\[ \sum (X_i - \bar{X})^2 = (2 - 3.67)^2 + (4 - 3.67)^2 + (5 - 3.67)^2 = 2.78 + 0.11 + 1.76 = 4.65 \]

  • 편의 추정량: \(\hat{\sigma}^2 = \frac{4.65}{3} \approx 1.55\)
  • 불편 추정량: \(\tilde{\sigma}^2 = \frac{4.65}{2} \approx 2.325\)

→ 실제 모집단 분산과 비교해보면 불편 추정량이 훨씬 더 가까움



📌 6. 비교 정리

구분 수식 기대값 불편성 여부
편의 추정량 \(\frac{1}{n} \sum (X_i - \bar{X})^2\) \(\frac{n-1}{n} \sigma^2\)
불편 추정량 \(\frac{1}{n-1} \sum (X_i - \bar{X})^2\) \(\sigma^2\)



✅ 결론

  • \(n\)으로 나눈 표본분산은 언제나 실제보다 작게 추정합니다.
  • 이유는 \(\bar{X}\) 계산 시 자유도 1개를 사용했기 때문입니다.
  • 따라서 \(n-1\)로 나누어야 모집단 분산 \(\sigma^2\)에 대한 불편 추정량이 됩니다.

📌 이것이 통계학에서 ‘자유도를 고려한 보정’이 반드시 필요한 이유입니다.



반응형
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함