티스토리 뷰
📘 1. 도입: 문제의 구조
1.1 왜 우리가 분산을 추정해야 하는가?
통계학에서 우리는 모집단의 분산 $$\sigma^2$$ 를 알고 싶지만, 대부분의 경우 모집단 전체를 관측할 수 없습니다. 그래서 표본을 추출하고, 그 표본을 기반으로 모집단의 분산을 추정하게 됩니다.
1.2 분산의 정의: 모집단 vs 표본
먼저 분산이 무엇인지 정의합니다. 모집단 분산(모분산)은 다음과 같이 정의됩니다:
$$ \sigma^2 = \mathbb{E}[(X - \mu)^2] $$
이는 확률변수 \(X\)가 전체 모집단 평균 \(\mu\)에서 얼마나 퍼져 있는지를 나타내는 값입니다.
하지만 우리는 실제로 모집단 전체를 알 수 없기 때문에 표본을 관측합니다. 표본 \(X_1, X_2, \dots, X_n\) 이 주어졌을 때, 가장 단순한 방법은 다음처럼 분산을 계산하는 것입니다:
$$ s_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 $$
여기서 \(\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i\)는 표본평균입니다.
1.3 표본으로 분산을 추정할 때의 핵심 문제
위의 식은 표본 내부에서 계산되므로 자연스럽게 보일 수 있지만, 실제로는 모분산보다 항상 작게 나오는 경향이 있습니다. 즉, 기대값을 계산해 보면 다음과 같습니다:
$$ \mathbb{E}[s_n^2] = \frac{n - 1}{n} \sigma^2 $$
이처럼 \(\mathbb{E}[s_n^2] < \sigma^2\), 즉 편향된(biased) 추정량입니다. 이 문제는 단순히 샘플 수가 작아서가 아니라 구조적으로 발생합니다.
1.4 직관적으로 왜 \(n\)으로 나누면 안 되는가?
표본 분산을 계산할 때는 표본평균 \(\bar{X}\)를 기준으로 각 데이터의 편차를 계산합니다. 하지만 \(\bar{X}\)는 표본 안에서 추출된 값이며, 모집단 평균 \(\mu\)가 아닙니다.
그런데 \(\bar{X}\)는 표본값들과 가장 가까운 중심이기 때문에, \(\mu\)를 기준으로 계산했을 때보다 편차 제곱합이 구조적으로 작아지는 성질이 있습니다.
그래서 모분산을 제대로 추정하려면 보정이 필요하며, 그 보정이 바로 분모를 \(n - 1\)로 바꾸는 것입니다.
📗 2. 표본분산의 기대값 계산
2.1 기호 및 가정 설정
표본 \(X_1, X_2, \dots, X_n\)은 모두 다음 조건을 만족한다고 가정합니다:
- i.i.d. (독립이고 동일한 분포)
- \(\mathbb{E}[X_i] = \mu\)
- \(\mathrm{Var}(X_i) = \sigma^2\)
2.2 증명할 식: 표본분산의 기대값
표본분산의 정의는 다음과 같습니다:
$$ s_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 $$
이제 우리가 증명하고자 하는 목표는 다음과 같습니다:
$$ \mathbb{E}[s_n^2] = \frac{n - 1}{n} \sigma^2 $$
2.3 식 전개: 완전제곱 공식 적용
다음 항등식을 사용합니다:
$$ (X_i - \bar{X})^2 = X_i^2 - 2X_i \bar{X} + \bar{X}^2 $$
따라서 표본분산 전체는 다음처럼 쓸 수 있습니다:
$$ \sum_{i=1}^n (X_i - \bar{X})^2 = \sum X_i^2 - 2\bar{X} \sum X_i + n \bar{X}^2 $$
여기서 \(\sum X_i = n \bar{X}\)이므로:
$$ = \sum X_i^2 - 2n \bar{X}^2 + n \bar{X}^2 = \sum X_i^2 - n \bar{X}^2 $$
결국 표본분산은 다음과 같이 표현됩니다:
$$ s_n^2 = \frac{1}{n} \left( \sum X_i^2 - n \bar{X}^2 \right) $$
2.4 양변의 기대값 계산
이제 기대값을 취합니다:
$$ \mathbb{E}[s_n^2] = \mathbb{E}\left[\frac{1}{n} \left( \sum X_i^2 - n \bar{X}^2 \right)\right] = \frac{1}{n} \sum \mathbb{E}[X_i^2] - \mathbb{E}[\bar{X}^2] $$
각 항의 기대값을 계산하면:
- \(\mathbb{E}[X_i^2] = \mathrm{Var}(X_i) + (\mathbb{E}[X_i])^2 = \sigma^2 + \mu^2\)
- \(\mathbb{E}[\bar{X}^2] = \mathrm{Var}(\bar{X}) + (\mathbb{E}[\bar{X}])^2 = \frac{\sigma^2}{n} + \mu^2\)
2.5 다시 식에 대입
$$ \mathbb{E}[s_n^2] = (\sigma^2 + \mu^2) - \left( \frac{\sigma^2}{n} + \mu^2 \right) = \sigma^2 - \frac{\sigma^2}{n} = \left( 1 - \frac{1}{n} \right)\sigma^2 = \frac{n - 1}{n} \sigma^2 $$
✅ 중간 요약
우리가 방금 증명한 결과는 다음과 같습니다:
$$ \mathbb{E}\left[ \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 \right] = \frac{n - 1}{n} \sigma^2 $$
즉, 이 추정량은 모분산보다 작으며, 편향된 추정량입니다.
📙 3. 보정된 추정량: \(\frac{1}{n - 1}\)은 왜 불편추정량인가?
3.1 다시 한 번: 편향을 가진 추정량
앞서 증명한 것처럼, 다음의 표본분산
$$ s_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 $$
은 기대값이 다음과 같이 편향되어 있습니다:
$$ \mathbb{E}[s_n^2] = \frac{n - 1}{n} \sigma^2 $$
즉, \(\mathbb{E}[s_n^2] < \sigma^2\), 항상 모분산보다 작습니다. 이로 인해 이 추정량은 biased estimator (편향 추정량)입니다.
3.2 새로운 추정량의 정의
이제 우리는 다음과 같은 보정된 추정량을 정의합니다:
$$ s^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 $$
즉, 분모를 \(n - 1\)로 바꾼 새로운 추정량입니다. 이 방식은 기대값이 정확히 \(\sigma^2\)가 되도록 편향을 보정합니다.
3.3 기대값 계산: 선형성 이용
앞서 계산된 결과를 이용하면,
$$ \mathbb{E}\left[ \sum_{i=1}^n (X_i - \bar{X})^2 \right] = (n - 1)\sigma^2 $$
이는 다음의 결과로부터 도출됩니다:
$$ \mathbb{E}\left[ \sum (X_i - \bar{X})^2 \right] = \mathbb{E}\left[ n s_n^2 \right] = n \cdot \mathbb{E}[s_n^2] = n \cdot \frac{n - 1}{n} \sigma^2 = (n - 1)\sigma^2 $$
그럼, 보정된 추정량의 기대값은 다음과 같습니다:
$$ \mathbb{E}[s^2] = \mathbb{E}\left[ \frac{1}{n - 1} \sum (X_i - \bar{X})^2 \right] = \frac{1}{n - 1} \cdot (n - 1) \sigma^2 = \sigma^2 $$
✅ 증명 완료: 불편추정량임을 보였다
우리는 다음을 보였습니다:
$$ \mathbb{E}[s^2] = \sigma^2 $$
즉, 이 추정량은 기대값이 정확히 모분산 \(\sigma^2\)와 같으며, 불편추정량(unbiased estimator)입니다.
3.4 대체 왜 \(n - 1\)이 되는가?
이제 왜 하필 \(n - 1\)인가?에 대한 논리적 해석이 필요합니다.
우리는 분산을 추정할 때 \(\bar{X}\)라는 추정된 중심값을 사용했습니다. 그런데 \(\bar{X}\)는 이미 데이터에 의해 계산된 값이므로, 나머지 데이터는 완전히 자유롭지 않습니다.
예를 들어, \(n = 4\)이고 평균이 10이라고 할 때, 만약 \(X_1 = 9\), \(X_2 = 10\), \(X_3 = 11\)이면 \(X_4\)는 자동으로 10이 되어야 평균이 10이 됩니다. 즉, 실제로 자유롭게 변할 수 있는 값은 3개 뿐입니다.
이렇게 평균을 하나 계산하면, 자유도(degree of freedom)가 하나 줄어듭니다. 그래서 \(n\)이 아니라 \(n - 1\)이 되는 것입니다.
3.5 ‘자유도’와 통계 해석
자유도란 통계량을 계산할 때 독립적으로 변할 수 있는 값의 개수입니다. 표본평균 \(\bar{X}\)는 하나의 값을 소모하므로, 전체 \(n\)개 중 자유도는 \(n - 1\)입니다.
따라서 분산 계산에서 보정 없이 \(n\)으로 나누면 과소추정되고, 정확한 분산 추정을 위해서는 반드시 \(n - 1\)로 나누어야 합니다.
🎯 정리
- 표본평균 \(\bar{X}\)는 이미 계산된 값이므로 하나의 자유도를 소모합니다.
- 그 결과 \((X_i - \bar{X})^2\)의 합을 제대로 평가하려면 \(n - 1\)로 나누어야 합니다.
- 그렇게 정의된 추정량만이 기대값이 \(\sigma^2\)인 불편추정량이 됩니다.
📒 4. 최종 정리: 왜 \(n - 1\)인가?
4.1 지금까지의 흐름 요약
우리는 지금까지 다음과 같은 과정을 따라왔습니다:
단계 | 내용 | 결과 |
---|---|---|
① | 표본분산의 기대값 계산 | \(\mathbb{E}[s_n^2] = \dfrac{n-1}{n} \sigma^2\) |
② | 보정된 추정량 정의 | \(s^2 = \dfrac{1}{n-1} \sum (X_i - \bar{X})^2\) |
③ | 불편성 증명 | \(\mathbb{E}[s^2] = \sigma^2\) |
우리는 이 과정을 통해 왜 분산을 추정할 때 \(n - 1\)로 나누어야 하는지를 수학적으로, 개념적으로 모두 확인했습니다.
4.2 ‘자유도’의 수학적 의미
자유도(degree of freedom)는 통계학에서 매우 핵심적인 개념입니다. 간단히 말해, 어떤 통계량을 계산할 때 독립적으로 변할 수 있는 값의 수를 의미합니다.
분산 계산에서 우리는 평균 \(\bar{X}\)를 먼저 계산합니다. 이 순간, \(n\)개의 값 중 평균을 고정했기 때문에 나머지 \(n - 1\)개만 자유롭게 움직일 수 있습니다.
예시를 들어보면, 만약 \(n = 4\), 평균 \(\bar{X} = 10\), 그리고
- \(X_1 = 9\)
- \(X_2 = 10\)
- \(X_3 = 11\)
이라면, \(X_4\)는 반드시 10이 되어야 평균이 유지됩니다. 즉, 자유롭게 선택할 수 있는 값은 3개뿐이며, 자유도는 \(n - 1\)입니다.
4.3 실무적 시사점: 왜 불편추정량이 중요한가?
이 이론은 단순히 이론적 정교함의 문제가 아닙니다. 실제 통계 분석 전반에 걸쳐 이 보정은 필수적입니다.
📌 예 1: 신뢰구간
표본평균 \(\bar{X}\)를 기반으로 신뢰구간을 계산할 때, 다음의 공식이 사용됩니다:
$$ \bar{X} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}} $$
여기서 \(s\)는 반드시 불편 추정량으로 계산된 표본표준편차여야 합니다. 그렇지 않으면 신뢰구간이 인위적으로 좁아지게 되어 잘못된 결론을 유도할 수 있습니다.
📌 예 2: 가설검정
\(t\)-검정, 분산분석(ANOVA), 회귀분석 등에서 검정 통계량은 다음과 같은 구조를 가집니다:
$$ t = \frac{\bar{X} - \mu_0}{s / \sqrt{n}} $$
여기서도 \(s\)는 반드시 불편하게 추정된 표본표준편차여야 합니다. 편향된 \(s_n\)를 사용할 경우 검정 통계량이 과대평가되어 오류율이 왜곡됩니다.
4.4 ‘왜 그래야만 하는가’에 대한 총정리
질문 | 설명 |
---|---|
왜 분산 추정이 중요한가? | 신뢰구간, 가설검정 등 모든 통계 절차에 직접적인 영향을 준다. |
왜 \(\bar{X}\)를 쓰면 문제가 되나? | 표본 내부에서 계산된 값이라 편차를 인위적으로 줄여 분산을 과소추정한다. |
왜 \(n - 1\)인가? | 표본평균을 계산하면서 자유도 1을 이미 사용했기 때문에 나머지 값만 자유롭게 변화 가능하다. |
왜 불편추정량이 중요한가? | 기대값이 모수를 정확히 반영하지 않으면 전체 추론이 왜곡된다. |
✅ 마무리 핵심 정리
- 표본평균은 데이터로부터 계산되므로 자유도 1을 소모한다.
- 그 결과 \((X_i - \bar{X})^2\)의 합은 \(n - 1\)로 나누어야 한다.
- 그렇게 정의된 추정량만이 기대값이 \(\sigma^2\)인 불편추정량이 된다.
- 이는 신뢰구간, 회귀분석, 분산분석 등 모든 통계절차의 기초가 된다.
'통계학 > 통계이론' 카테고리의 다른 글
표본분산을 n-1로 나누는 이유 (0) | 2025.04.12 |
---|---|
불편성(unbiasedness)란? (0) | 2025.04.12 |
- Total
- Today
- Yesterday
- 일본어
- 열혈프로그래밍
- 뇌와행동의기초
- stl
- 오블완
- 여인권
- 보세사
- 윤성우
- 류근관
- K-MOOC
- C
- 티스토리챌린지
- c++
- 백준
- 통계학
- 일문따
- 심리학
- 데이터분석
- 인지부조화
- 사회심리학
- EBS
- Python
- 파이썬
- 코딩테스트
- 일본어문법무작정따라하기
- 통계
- jlpt
- 인프런
- 회계
- C/C++
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |