티스토리 뷰

반응형



📘 1. 도입: 문제의 구조

 

1.1 왜 우리가 분산을 추정해야 하는가?

통계학에서 우리는 모집단의 분산 $$\sigma^2$$ 를 알고 싶지만, 대부분의 경우 모집단 전체를 관측할 수 없습니다. 그래서 표본을 추출하고, 그 표본을 기반으로 모집단의 분산을 추정하게 됩니다.

 

1.2 분산의 정의: 모집단 vs 표본

먼저 분산이 무엇인지 정의합니다. 모집단 분산(모분산)은 다음과 같이 정의됩니다:


$$ \sigma^2 = \mathbb{E}[(X - \mu)^2] $$

이는 확률변수 \(X\)가 전체 모집단 평균 \(\mu\)에서 얼마나 퍼져 있는지를 나타내는 값입니다.

하지만 우리는 실제로 모집단 전체를 알 수 없기 때문에 표본을 관측합니다. 표본 \(X_1, X_2, \dots, X_n\) 이 주어졌을 때, 가장 단순한 방법은 다음처럼 분산을 계산하는 것입니다:


$$ s_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 $$

여기서 \(\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i\)는 표본평균입니다.

 

1.3 표본으로 분산을 추정할 때의 핵심 문제

위의 식은 표본 내부에서 계산되므로 자연스럽게 보일 수 있지만, 실제로는 모분산보다 항상 작게 나오는 경향이 있습니다. 즉, 기대값을 계산해 보면 다음과 같습니다:


$$ \mathbb{E}[s_n^2] = \frac{n - 1}{n} \sigma^2 $$

이처럼 \(\mathbb{E}[s_n^2] < \sigma^2\), 즉 편향된(biased) 추정량입니다. 이 문제는 단순히 샘플 수가 작아서가 아니라 구조적으로 발생합니다.

 

1.4 직관적으로 왜 \(n\)으로 나누면 안 되는가?

표본 분산을 계산할 때는 표본평균 \(\bar{X}\)를 기준으로 각 데이터의 편차를 계산합니다. 하지만 \(\bar{X}\)는 표본 안에서 추출된 값이며, 모집단 평균 \(\mu\)가 아닙니다.

그런데 \(\bar{X}\)는 표본값들과 가장 가까운 중심이기 때문에, \(\mu\)를 기준으로 계산했을 때보다 편차 제곱합이 구조적으로 작아지는 성질이 있습니다.

그래서 모분산을 제대로 추정하려면 보정이 필요하며, 그 보정이 바로 분모를 \(n - 1\)로 바꾸는 것입니다.



📗 2. 표본분산의 기대값 계산

2.1 기호 및 가정 설정

표본 \(X_1, X_2, \dots, X_n\)은 모두 다음 조건을 만족한다고 가정합니다:

  • i.i.d. (독립이고 동일한 분포)
  • \(\mathbb{E}[X_i] = \mu\)
  • \(\mathrm{Var}(X_i) = \sigma^2\)

 

2.2 증명할 식: 표본분산의 기대값

표본분산의 정의는 다음과 같습니다:


$$ s_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 $$

이제 우리가 증명하고자 하는 목표는 다음과 같습니다:


$$ \mathbb{E}[s_n^2] = \frac{n - 1}{n} \sigma^2 $$

2.3 식 전개: 완전제곱 공식 적용

다음 항등식을 사용합니다:


$$ (X_i - \bar{X})^2 = X_i^2 - 2X_i \bar{X} + \bar{X}^2 $$

따라서 표본분산 전체는 다음처럼 쓸 수 있습니다:


$$ \sum_{i=1}^n (X_i - \bar{X})^2 = \sum X_i^2 - 2\bar{X} \sum X_i + n \bar{X}^2 $$

여기서 \(\sum X_i = n \bar{X}\)이므로:


$$ = \sum X_i^2 - 2n \bar{X}^2 + n \bar{X}^2 = \sum X_i^2 - n \bar{X}^2 $$

결국 표본분산은 다음과 같이 표현됩니다:


$$ s_n^2 = \frac{1}{n} \left( \sum X_i^2 - n \bar{X}^2 \right) $$

2.4 양변의 기대값 계산

이제 기대값을 취합니다:


$$ \mathbb{E}[s_n^2] = \mathbb{E}\left[\frac{1}{n} \left( \sum X_i^2 - n \bar{X}^2 \right)\right] = \frac{1}{n} \sum \mathbb{E}[X_i^2] - \mathbb{E}[\bar{X}^2] $$

각 항의 기대값을 계산하면:

  • \(\mathbb{E}[X_i^2] = \mathrm{Var}(X_i) + (\mathbb{E}[X_i])^2 = \sigma^2 + \mu^2\)
  • \(\mathbb{E}[\bar{X}^2] = \mathrm{Var}(\bar{X}) + (\mathbb{E}[\bar{X}])^2 = \frac{\sigma^2}{n} + \mu^2\)

 

2.5 다시 식에 대입


$$ \mathbb{E}[s_n^2] = (\sigma^2 + \mu^2) - \left( \frac{\sigma^2}{n} + \mu^2 \right) = \sigma^2 - \frac{\sigma^2}{n} = \left( 1 - \frac{1}{n} \right)\sigma^2 = \frac{n - 1}{n} \sigma^2 $$

✅ 중간 요약

우리가 방금 증명한 결과는 다음과 같습니다:


$$ \mathbb{E}\left[ \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 \right] = \frac{n - 1}{n} \sigma^2 $$

즉, 이 추정량은 모분산보다 작으며, 편향된 추정량입니다.



📙 3. 보정된 추정량: \(\frac{1}{n - 1}\)은 왜 불편추정량인가?

 

3.1 다시 한 번: 편향을 가진 추정량

앞서 증명한 것처럼, 다음의 표본분산


$$ s_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 $$

은 기대값이 다음과 같이 편향되어 있습니다:


$$ \mathbb{E}[s_n^2] = \frac{n - 1}{n} \sigma^2 $$

즉, \(\mathbb{E}[s_n^2] < \sigma^2\), 항상 모분산보다 작습니다. 이로 인해 이 추정량은 biased estimator (편향 추정량)입니다.

 

3.2 새로운 추정량의 정의

이제 우리는 다음과 같은 보정된 추정량을 정의합니다:


$$ s^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 $$

즉, 분모를 \(n - 1\)로 바꾼 새로운 추정량입니다. 이 방식은 기대값이 정확히 \(\sigma^2\)가 되도록 편향을 보정합니다.

 

3.3 기대값 계산: 선형성 이용

앞서 계산된 결과를 이용하면,


$$ \mathbb{E}\left[ \sum_{i=1}^n (X_i - \bar{X})^2 \right] = (n - 1)\sigma^2 $$

이는 다음의 결과로부터 도출됩니다:


$$ \mathbb{E}\left[ \sum (X_i - \bar{X})^2 \right] = \mathbb{E}\left[ n s_n^2 \right] = n \cdot \mathbb{E}[s_n^2] = n \cdot \frac{n - 1}{n} \sigma^2 = (n - 1)\sigma^2 $$

그럼, 보정된 추정량의 기대값은 다음과 같습니다:


$$ \mathbb{E}[s^2] = \mathbb{E}\left[ \frac{1}{n - 1} \sum (X_i - \bar{X})^2 \right] = \frac{1}{n - 1} \cdot (n - 1) \sigma^2 = \sigma^2 $$

✅ 증명 완료: 불편추정량임을 보였다

우리는 다음을 보였습니다:


$$ \mathbb{E}[s^2] = \sigma^2 $$

즉, 이 추정량은 기대값이 정확히 모분산 \(\sigma^2\)와 같으며, 불편추정량(unbiased estimator)입니다.

 

3.4 대체 왜 \(n - 1\)이 되는가?

이제 왜 하필 \(n - 1\)인가?에 대한 논리적 해석이 필요합니다.

우리는 분산을 추정할 때 \(\bar{X}\)라는 추정된 중심값을 사용했습니다. 그런데 \(\bar{X}\)는 이미 데이터에 의해 계산된 값이므로, 나머지 데이터는 완전히 자유롭지 않습니다.

예를 들어, \(n = 4\)이고 평균이 10이라고 할 때, 만약 \(X_1 = 9\), \(X_2 = 10\), \(X_3 = 11\)이면 \(X_4\)는 자동으로 10이 되어야 평균이 10이 됩니다. 즉, 실제로 자유롭게 변할 수 있는 값은 3개 뿐입니다.

이렇게 평균을 하나 계산하면, 자유도(degree of freedom)가 하나 줄어듭니다. 그래서 \(n\)이 아니라 \(n - 1\)이 되는 것입니다.

 

3.5 ‘자유도’와 통계 해석

자유도란 통계량을 계산할 때 독립적으로 변할 수 있는 값의 개수입니다. 표본평균 \(\bar{X}\)는 하나의 값을 소모하므로, 전체 \(n\)개 중 자유도는 \(n - 1\)입니다.

따라서 분산 계산에서 보정 없이 \(n\)으로 나누면 과소추정되고, 정확한 분산 추정을 위해서는 반드시 \(n - 1\)로 나누어야 합니다.

 

🎯 정리

  • 표본평균 \(\bar{X}\)는 이미 계산된 값이므로 하나의 자유도를 소모합니다.
  • 그 결과 \((X_i - \bar{X})^2\)의 합을 제대로 평가하려면 \(n - 1\)로 나누어야 합니다.
  • 그렇게 정의된 추정량만이 기대값이 \(\sigma^2\)인 불편추정량이 됩니다.



📒 4. 최종 정리: 왜 \(n - 1\)인가?

 

4.1 지금까지의 흐름 요약

우리는 지금까지 다음과 같은 과정을 따라왔습니다:

 

단계 내용 결과
표본분산의 기대값 계산 \(\mathbb{E}[s_n^2] = \dfrac{n-1}{n} \sigma^2\)
보정된 추정량 정의 \(s^2 = \dfrac{1}{n-1} \sum (X_i - \bar{X})^2\)
불편성 증명 \(\mathbb{E}[s^2] = \sigma^2\)

 

우리는 이 과정을 통해 왜 분산을 추정할 때 \(n - 1\)로 나누어야 하는지를 수학적으로, 개념적으로 모두 확인했습니다.

 

4.2 ‘자유도’의 수학적 의미

자유도(degree of freedom)는 통계학에서 매우 핵심적인 개념입니다. 간단히 말해, 어떤 통계량을 계산할 때 독립적으로 변할 수 있는 값의 수를 의미합니다.

분산 계산에서 우리는 평균 \(\bar{X}\)를 먼저 계산합니다. 이 순간, \(n\)개의 값 중 평균을 고정했기 때문에 나머지 \(n - 1\)개만 자유롭게 움직일 수 있습니다.

예시를 들어보면, 만약 \(n = 4\), 평균 \(\bar{X} = 10\), 그리고

  • \(X_1 = 9\)
  • \(X_2 = 10\)
  • \(X_3 = 11\)

이라면, \(X_4\)는 반드시 10이 되어야 평균이 유지됩니다. 즉, 자유롭게 선택할 수 있는 값은 3개뿐이며, 자유도는 \(n - 1\)입니다.

 

4.3 실무적 시사점: 왜 불편추정량이 중요한가?

이 이론은 단순히 이론적 정교함의 문제가 아닙니다. 실제 통계 분석 전반에 걸쳐 이 보정은 필수적입니다.

📌 예 1: 신뢰구간

표본평균 \(\bar{X}\)를 기반으로 신뢰구간을 계산할 때, 다음의 공식이 사용됩니다:


$$ \bar{X} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}} $$

여기서 \(s\)는 반드시 불편 추정량으로 계산된 표본표준편차여야 합니다. 그렇지 않으면 신뢰구간이 인위적으로 좁아지게 되어 잘못된 결론을 유도할 수 있습니다.

 

📌 예 2: 가설검정

\(t\)-검정, 분산분석(ANOVA), 회귀분석 등에서 검정 통계량은 다음과 같은 구조를 가집니다:


$$ t = \frac{\bar{X} - \mu_0}{s / \sqrt{n}} $$

여기서도 \(s\)는 반드시 불편하게 추정된 표본표준편차여야 합니다. 편향된 \(s_n\)를 사용할 경우 검정 통계량이 과대평가되어 오류율이 왜곡됩니다.

 

4.4 ‘왜 그래야만 하는가’에 대한 총정리

질문 설명
왜 분산 추정이 중요한가? 신뢰구간, 가설검정 등 모든 통계 절차에 직접적인 영향을 준다.
왜 \(\bar{X}\)를 쓰면 문제가 되나? 표본 내부에서 계산된 값이라 편차를 인위적으로 줄여 분산을 과소추정한다.
왜 \(n - 1\)인가? 표본평균을 계산하면서 자유도 1을 이미 사용했기 때문에 나머지 값만 자유롭게 변화 가능하다.
왜 불편추정량이 중요한가? 기대값이 모수를 정확히 반영하지 않으면 전체 추론이 왜곡된다.

 

✅ 마무리 핵심 정리

  • 표본평균은 데이터로부터 계산되므로 자유도 1을 소모한다.
  • 그 결과 \((X_i - \bar{X})^2\)의 합은 \(n - 1\)로 나누어야 한다.
  • 그렇게 정의된 추정량만이 기대값이 \(\sigma^2\)인 불편추정량이 된다.
  • 이는 신뢰구간, 회귀분석, 분산분석 등 모든 통계절차의 기초가 된다.
반응형

'통계학 > 통계이론' 카테고리의 다른 글

표본분산을 n-1로 나누는 이유  (0) 2025.04.12
불편성(unbiasedness)란?  (0) 2025.04.12
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함
반응형