티스토리 뷰
불편성, 통계 추정에서 ‘믿을 수 있음’의 기준이 되려면
— 표본평균이 불편 추정량이라는 사실을 수학적으로 증명하기까지
📌 I. 왜 불편성이 중요한가?
“우리가 얻은 숫자 하나가 진짜를 얼마나 닮았는가”
우리는 데이터를 수집하고, 그 데이터를 통해 어떤 ‘숫자’를 계산합니다. 평균, 표준편차, 회귀계수, 상관계수… 익숙한 통계치들입니다.
하지만 이런 수치들이 진짜 값, 즉 모집단의 특성(parameter)을 얼마나 정확히 반영하는지는 놀랍도록 많은 사람들이 묻지 않습니다.
그렇다면 물어야 합니다.
“이 숫자가 진짜 값을 얼마나 잘 반영하고 있는가?”
“이 숫자, 얼마나 믿을 수 있나?”
이 질문에 답하기 위한 첫 번째 기준이 바로 불편성(unbiasedness)입니다.
✔️ 정의는 간단하지만, 의미는 깊습니다:
어떤 추정량이 평균적으로 ‘정답’을 맞춘다면, 그 추정량은 불편하다고 말합니다.
이제, 이 직관을 수학적으로 정의하고 증명해보겠습니다.
📌 II. 불편성의 수학적 정의
🎯 정의:
모수 \(\theta\)에 대한 추정량 \(\hat{\theta}\)가 불편(unbiased) 하다는 것은, 그 기대값이 모수와 일치하는 경우를 말합니다:
\[ E[\hat{\theta}] = \theta \]
이 식은 다음을 의미합니다:
- 우리가 동일한 방법으로 표본을 무수히 반복해서 추출하고,
- 그때마다 어떤 추정량 \(\hat{\theta}\)를 계산해서,
- 그 값들을 평균내었을 때
→ 그 평균이 진짜 값 \(\theta\)와 일치해야 한다는 것입니다.
🧠 비유적으로 말하자면:
- 단발적으로는 틀릴 수 있어도,
- 전체적으로 보면 정답을 향하고 있는가?
- 불편성은 "평균적으로는 맞춘다"는 정직한 성질입니다.
📌 III. 표본평균은 왜 항상 불편 추정량인가?
— 수학적으로 단 한 줄도 생략하지 않고 증명한다
이제 가장 대표적인 추정량, 표본평균 \(\bar{X}\) 가 왜 불편한지를 완전하게 증명합니다.
📌 가정 조건
모집단에서 독립적으로 표본 \(n\)개를 추출한 상황을 가정합니다. 각 표본은 확률 변수이며, 다음과 같은 조건을 따릅니다:
- \(X_1, X_2, \dots, X_n\) 은 i.i.d. (independent and identically distributed)
- 각 \(X_i\)의 기대값: \(E[X_i] = \mu\)
- 분산: \(Var(X_i) = \sigma^2\)
- 목표: \(\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i\) 가 \(\mu\)의 불편 추정량임을 증명
📐 증명 시작
우리는 다음을 증명하고자 합니다:
\[ E[\bar{X}] = \mu \]
먼저 표본평균의 수식을 그대로 기대값 안에 대입합니다:
\[ E[\bar{X}] = E\left[ \frac{1}{n} \sum_{i=1}^n X_i \right] \]
→ 기대값의 선형성(linearity of expectation)을 적용:
\[ = \frac{1}{n} \sum_{i=1}^n E[X_i] \]
→ 모든 \(X_i\)는 같은 분포에서 나왔고, 기대값은 \(\mu\)이므로:
\[ = \frac{1}{n} \sum_{i=1}^n \mu = \frac{n \mu}{n} = \mu \]
✅ 결론:
\[ E[\bar{X}] = \mu \quad \Rightarrow \quad \bar{X} \text{는 } \mu \text{의 불편 추정량이다.} \]
즉, 표본의 크기 \(n\) 이 얼마이든, 항상 기대값이 모수 \(\mu\)와 정확히 일치합니다. 이것이 바로 표본평균의 강력한 이론적 무기입니다.
💡 이 증명이 중요한 이유
단 한 번 뽑은 표본에서 구한 평균이 \(\mu\)와 같지는 않을 수 있습니다. 하지만 동일한 모집단에서 수천 번, 수만 번 뽑아 평균을 계산한다면 그 평균들의 평균은 정확히 \(\mu\)입니다.
이건 우연이 아니라 수학적 필연입니다. 그래서 \(\bar{X}\)는 ‘믿을 수 있는 숫자’가 됩니다.
📎 다음 예고
다음 회차에서는 “그럼 표본을 3개씩 뽑든, 5개씩 뽑든, 7개씩 뽑든 정말 평균이 \(\mu\)가 될까?” 라는 질문을 다루며,
유한한 모집단에서의 실험적 평균 수렴과 불편성의 경험적 정당화를 다룹니다.
표본의 크기를 바꿔도 평균은 항상 모수를 향한다
— 모든 조합 평균이 \(\mu\)가 되는 이유와 그 직관적 실험
📌 1. 질문 다시 던지기
“3개씩 뽑아도, 5개씩 뽑아도, 7개씩 뽑아도 정말 평균은 \(\mu\)가 되는가?”
앞서 수식으로는 이렇게 말했습니다:
\[ E[\bar{X}] = \mu \quad \text{모든 } n \geq 1 \text{에 대해 성립} \]
그런데 여기에 자연스러운 의문이 생깁니다:
“그럼 표본 크기를 달리해도 이게 항상 성립하나?”
“모집단이 정해져 있고 그 안에서 여러 개 뽑아도 정말 평균은 일정한가?”
이제 이걸 실제로 실험적으로 보여드리겠습니다.
📌 2. 실험 세팅: 모집단을 유한하게 설정해보자
모집단 \(\Omega\)을 단순하게 설정해봅니다:
\[ \Omega = \{1, 2, 3, 4, 5, 6, 7, 8, 9, 10\} \]
- 모집단 크기: \(N = 10\)
- 모집단 평균:\[ \mu = \frac{1 + 2 + \cdots + 10}{10} = \frac{55}{10} = 5.5 \]
이제 여기서 표본을 뽑아 평균을 계산해봅니다. 단, 임의로 몇 개만 뽑는 게 아니라 가능한 모든 조합을 나열해서 그 표본평균들의 평균을 구합니다.
📌 3. 모든 조합을 나열하고 표본평균을 구해보자
✅ 예: 표본 크기 \(n = 3\)
- 가능한 모든 조합의 수:\[ \binom{10}{3} = 120 \]
각 조합 예시:
표본 조합 | 표본평균 |
---|---|
{1,2,3} | 2.0 |
{1,2,4} | 2.33 |
{1,3,10} | 4.67 |
{4,5,6} | 5.0 |
... (총 120개) | ... |
→ 이 120개의 표본평균을 다 평균내면? → 정확히 5.5, 모집단 평균과 일치합니다.
✅ 예: 표본 크기 \(n = 5\)
- 가능한 조합 수:\[ \binom{10}{5} = 252 \]
- 표본평균들을 모두 계산해서 평균내면? → 역시 정확히 5.5
✅ 예: 표본 크기 \(n = 7\)
- 조합 수:\[ \binom{10}{7} = 120 \]
- 모든 조합 평균의 평균값? → 5.5
📌 4. 왜 이런 결과가 나오는가?
— 수학이 아니라 ‘구조’ 때문이다
이건 수학적으로만 맞는 게 아닙니다. 모집단이 정직하게 구성되어 있다면, 그 안에서 뽑은 어떤 조합도 전체 중심에서 벗어날 수 없기 때문입니다.
조합 유형 | 경향성 |
---|---|
{1,2,3}처럼 작게 치우친 표본 | 평균이 작지만 희귀 |
{8,9,10}처럼 크게 치우친 표본 | 평균이 크지만 희귀 |
{4,5,6}, {5,6,7} 같은 중심 조합 | 평균이 \(\mu\) 근처, 많이 등장 |
→ 이 모든 조합이 서로를 상쇄하면서 평균을 \(\mu\)로 몰아줍니다.
📌 5. 복원추출과 비복원추출의 차이
- 복원추출 (with replacement) → 모집단이 무한할 때 가정, 표본 간 독립성 보장 → 이론적 증명에서 쓰임
- 비복원추출 (without replacement) → 유한 모집단에서 현실적으로 자주 사용 → 위의 실험은 이 방식
🔍 그런데 놀랍게도 두 방식 모두에서 평균의 평균은 \(\mu\)로 수렴합니다. (단, 비복원일 경우, 분산이 조금 줄어듦 → finite population correction 필요)
📌 6. Python 시뮬레이션으로 직접 해보면?
직접 수식이 아니라 코드를 짜서 확인할 수도 있습니다. 예를 들어 10,000번 표본을 5개씩 뽑아서 평균을 계산해보면, 그 평균들의 평균은 항상 약 5.5에 수렴합니다.
💬 “표본 크기를 바꾸면 분산은 달라지지만, 기대값(평균)은 변하지 않는다”
✅ 결론
- 표본의 크기가 달라도 표본평균의 평균은 항상 \(\mu\)입니다.
- 그 이유는 기대값 선형성 + 표본들이 \(\mu\)를 중심으로 형성된 구조 때문입니다.
- 실제로 모든 조합을 열거하거나 시뮬레이션으로 확인해도, 평균의 평균은 항상 모집단 평균과 정확히 일치합니다.
📌 이 경험적 정당화는 우리가 통계학을 “신뢰”할 수 있는 매우 강력한 이유입니다.
📎 다음 예고
다음 회차에서는 표본중앙값은 왜 평균과 달리 편향을 가지는가?를 수학적으로 철저히 증명하고, 실제 분포 예시와 비교해 보여드리겠습니다.
왜 표본중앙값은 평균처럼 ‘정직하지’ 않은가?
— 편향된 추정량이라는 것을 수학적으로, 직관적으로, 실험적으로 증명하기
📌 1. 다시 묻자: 중앙값은 왜 믿기 어려운가?
앞서 표본평균 \(\bar{X}\)는 다음을 만족했습니다:
\[ E[\bar{X}] = \mu \]
즉, 표본평균은 항상 불편 추정량입니다. 그런데 표본중앙값은 이와 달리 일반적으로 \(E[\text{median}] \ne \mu\) 입니다.
📌 “중앙에 있는 값인데 왜 평균과 같지 않지?”
→ 이 질문이 이번 회차의 출발점입니다.
📌 2. 수학적으로 정의해보자
🎯 표본중앙값(median)의 정의:
- 표본: \(X_1, ..., X_n\)
- 정렬: \(X_{(1)} \leq X_{(2)} \leq \cdots \leq X_{(n)}\)
- 홀수 \(n\):\[ \text{median} = X_{\left( \frac{n+1}{2} \right)} \]
- 짝수 \(n\):\[ \text{median} = \frac{1}{2}(X_{(n/2)} + X_{(n/2 + 1)}) \]
이제 이 중앙값을 확률 변수로 보고, 기대값 \(E[\text{median}]\)을 구합니다.
📌 3. 예제로 접근: 정규분포일 때도 편향이 있는가?
많은 사람이 “정규분포는 대칭이니까 평균 = 중앙값 아닐까?” 라고 생각합니다.
- → 분포의 중앙값은 모수 \(\mu\) 와 같습니다.
- → 그러나 표본중앙값의 기대값은 \(\mu\)와 다를 수 있습니다.
✅ 예: \(n = 3\), \(X_i \sim N(\mu, \sigma^2)\)
- 표본을 3개 뽑습니다: \(X_1, X_2, X_3\)
- 중앙값: \(M = X_{(2)}\)
- 우리는 이 \(M\)의 기대값 \(E[M]\)이 \(\mu\)와 같은지 보고 싶습니다.
📐 수학적 계산:
\(M = X_{(2)}\)의 분포는 order statistics 이론에 따라 다음과 같이 주어집니다:
\[ f_M(m) = \frac{6}{\sigma} \phi\left( \frac{m - \mu}{\sigma} \right) \Phi\left( \frac{m - \mu}{\sigma} \right) \left[ 1 - \Phi\left( \frac{m - \mu}{\sigma} \right) \right] \]
- \(\phi\): 정규분포의 확률밀도함수 (PDF)
- \(\Phi\): 정규분포의 누적분포함수 (CDF)
→ 이 밀도함수는 대칭이 아닙니다.
→ 따라서 \(E[M] = \mu\)가 되지 않습니다.
→ 실제로 계산하면 중앙값의 기대값은 \(\mu\)보다 약간 작거나 큽니다.
📌 4. 왜 정규분포에서도 이런 편향이 생길까?
표본 중 가장 가운데 있는 값은 주변 데이터의 위치에 따라 당겨지거나 밀립니다.
- 작은 표본에서는 우연히 더 큰 값이 들어오면 중앙값이 밀림
- 표본의 변동성 때문에 중심값이 정확히 중심에 고정되지 않음
- 특히 짝수 표본일 경우 평균을 내기 때문에 더 왜곡이 발생함
📌 5. 실제 시뮬레이션 예시
조건:
- 모집단: 정규분포 \(N(100, 15^2)\)
- 표본크기: \(n = 3\)
- 시뮬레이션 횟수: 100,000번
결과:
- 표본평균들의 평균: 약 100.0
- 표본중앙값들의 평균: 약 99.6 → 편향 존재
📊 추가 실험 결과:
표본크기 | \(E[\bar{X}]\) | \(E[\text{median}]\) |
---|---|---|
3 | 100.0 | 99.6 |
5 | 100.0 | 99.8 |
7 | 100.0 | 99.9 |
9 이상 | 100.0 | 100.0 (수렴) |
→ 표본이 커질수록 중앙값도 \(\mu\)에 수렴하긴 하지만, 작은 표본에서는 명백히 편향이 존재합니다.
📌 6. 왜 평균은 안 그러고 중앙값은 이럴까?
평균 \(\bar{X}\):
- 선형결합: \(E[\bar{X}] = \frac{1}{n} \sum E[X_i] = \mu\)
- 항상 기대값과 일치
- 편향 구조 없음
중앙값:
- 비선형 함수: 정렬 → 위치 추출
- 수학적으로 기댓값이 유지되지 않음
- → 기대값이 모수와 다를 수 있음
✅ 결론
- 중앙값은 일반적으로 불편한 추정량입니다.
- 분포가 대칭이더라도 표본 크기가 작으면 편향 발생
- 수학적 구조가 평균과 달리 선형이 아니기 때문에 기대값이 보존되지 않음
📌 평균은 ‘합의된 전체의 정중앙’이고, 중앙값은 ‘순서상 정중앙’일 뿐입니다. 둘은 겉으로 닮았지만 수학적으로는 전혀 다릅니다.
📎 다음 예고
다음 회차에서는 분산 추정량이 왜 \(n\)으로 나누면 편향되고, 왜 \(n-1\)로 나누어야만 불편 추정량이 되는가를 기대값 전개와 자유도 관점에서 증명합니다.
분산 추정, 왜 \(n\)이 아니라 \(n-1\)로 나눠야 하는가
— 불편 추정량과 자유도의 수학적·논리적 정당화
📌 1. 문제의식: “왜 굳이 귀찮게 \(n-1\)로 나누는가?”
표본에서 분산을 추정할 때, 우리는 거의 본능적으로 이렇게 계산합니다:
\[ s^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 \]
하지만 자연스럽게 이런 질문이 나옵니다:
“왜 그냥 \(n\)으로 안 나누고, 꼭 \(n-1\)로 나눠야 하죠?”
“수학적으로 무슨 차이가 있길래 이게 더 정답이라고 하는 거죠?”
이 질문은 통계학에서 가장 많이 배우지만 가장 적게 이해되는 질문 중 하나입니다. 지금부터 이걸 철저하게 이해시켜 드리겠습니다.
📌 2. 목표: 모집단 분산 \(\sigma^2\)의 불편 추정량 구하기
🎯 모수:
- 모집단 평균: \(\mu = E[X]\)
- 모집단 분산: \(\sigma^2 = E[(X - \mu)^2]\)
🎯 추정량들:
이름 | 수식 | 설명 |
---|---|---|
편의 추정량 (biased) | \(\hat{\sigma}^2 = \frac{1}{n} \sum (X_i - \bar{X})^2\) | 편향 있음 |
불편 추정량 (unbiased) | \(\tilde{\sigma}^2 = \frac{1}{n-1} \sum (X_i - \bar{X})^2\) | 기대값이 \(\sigma^2\) |
📌 3. 수학적 증명: 왜 \(n\)으로 나누면 편향이 생기는가?
⚙️ Step 1: 기본 구조
우리는 다음 기대값을 구합니다:
\[ E\left[ \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 \right] \]
이 식의 기대값이 \(\sigma^2\)보다 작다는 것을 보이는 것이 목표입니다.
⚙️ Step 2: 분산의 대체 표현
분산은 다음과 같이 표현됩니다:
\[ \sum (X_i - \bar{X})^2 = \sum (X_i - \mu)^2 - n(\bar{X} - \mu)^2 \]
→ 이 식은 분산 분해(identity for variance decomposition)의 고전적 결과입니다. → 전체 오차 = 개별 오차 − 평균의 오차
⚙️ Step 3: 기대값 계산
양변의 기대값을 구합니다:
\[ E\left[\sum (X_i - \bar{X})^2\right] = E\left[ \sum (X_i - \mu)^2 - n(\bar{X} - \mu)^2 \right] \]
\[ = \sum E[(X_i - \mu)^2] - n E[(\bar{X} - \mu)^2] \]
각 항은 다음과 같습니다:
- \(\sum E[(X_i - \mu)^2] = n \sigma^2\)
- \(E[(\bar{X} - \mu)^2] = \frac{\sigma^2}{n}\)
대입하면:
\[ E\left[\sum (X_i - \bar{X})^2\right] = n \sigma^2 - \sigma^2 = (n - 1)\sigma^2 \]
⚙️ Step 4: 둘 다 정리하면
\[ E\left[ \frac{1}{n} \sum (X_i - \bar{X})^2 \right] = \frac{n-1}{n} \sigma^2 \]
\[ E\left[ \frac{1}{n-1} \sum (X_i - \bar{X})^2 \right] = \sigma^2 \]
→ \(n\)으로 나누면 항상 작다. → 편향 있음
→ \(n-1\)로 나누면 정확히 \(\sigma^2\). → 불편성 성립
📌 4. 자유도(degrees of freedom)란 무엇인가?
자유도란 “통계적으로 자유롭게 변할 수 있는 독립적인 수의 개수”입니다.
- 표본 \(n\)개에서
- 평균 \(\bar{X}\)를 이미 계산했기 때문에
- 나머지 \(n - 1\)개만 자유롭게 움직일 수 있습니다.
즉, 평균을 이미 사용했기 때문에 한 개의 정보는 ‘소모되었다’는 것입니다. 그래서 오차 제곱합을 평균낼 때는 \(n-1\)으로 나눠야 합니다.
📌 5. 수치 예시로 확인해보자
모집단: \(\{1, 2, 3, 4, 5\}\) → \(\mu = 3\), \(\sigma^2 = 2.5\)
표본: \(\{2, 4, 5\}\)
\[ \bar{X} = \frac{2 + 4 + 5}{3} = 3.67 \]
\[ \sum (X_i - \bar{X})^2 = (2 - 3.67)^2 + (4 - 3.67)^2 + (5 - 3.67)^2 = 2.78 + 0.11 + 1.76 = 4.65 \]
- 편의 추정량: \(\hat{\sigma}^2 = \frac{4.65}{3} \approx 1.55\)
- 불편 추정량: \(\tilde{\sigma}^2 = \frac{4.65}{2} \approx 2.325\)
→ 실제 모집단 분산과 비교해보면 불편 추정량이 훨씬 더 가까움
📌 6. 비교 정리
구분 | 수식 | 기대값 | 불편성 여부 |
---|---|---|---|
편의 추정량 | \(\frac{1}{n} \sum (X_i - \bar{X})^2\) | \(\frac{n-1}{n} \sigma^2\) | ❌ |
불편 추정량 | \(\frac{1}{n-1} \sum (X_i - \bar{X})^2\) | \(\sigma^2\) | ✅ |
✅ 결론
- \(n\)으로 나눈 표본분산은 언제나 실제보다 작게 추정합니다.
- 이유는 \(\bar{X}\) 계산 시 자유도 1개를 사용했기 때문입니다.
- 따라서 \(n-1\)로 나누어야 모집단 분산 \(\sigma^2\)에 대한 불편 추정량이 됩니다.
📌 이것이 통계학에서 ‘자유도를 고려한 보정’이 반드시 필요한 이유입니다.
📎 다음 예고
다음 회차에서는 지금까지 증명한 세 추정량(평균, 중앙값, 분산)을 비교하고 각 추정량의 철학적·실용적 의의, 실험 설계에서의 선택 기준, 표로 통합 정리해드리겠습니다.
세 가지 추정량 비교와 통합
— 평균, 중앙값, 분산 추정은 어떻게 판단되어야 하는가?
📌 1. 지금까지 다룬 추정량 요약
✔️ 우리가 증명한 핵심
추정량 | 수식 | 기대값 | 불편성 여부 |
---|---|---|---|
표본평균 \(\bar{X}\) | \(\frac{1}{n} \sum X_i\) | \(\mu\) | ✅ |
표본중앙값 | \(X_{(\lceil n/2 \rceil)}\) | \(\neq \mu\) (일반적으로) | ❌ |
표본분산 (\(n-1\)) | \(\frac{1}{n-1} \sum (X_i - \bar{X})^2\) | \(\sigma^2\) | ✅ |
표본분산 (\(n\)) | \(\frac{1}{n} \sum (X_i - \bar{X})^2\) | \(\frac{n-1}{n}\sigma^2\) | ❌ |
📌 2. “불편성” 하나만으로 충분한가?
📌 정답은 “아니오”입니다.
불편성은 기대값이 정확한가? 를 판단하는 기준입니다. 하지만 다음과 같은 문제가 있습니다:
- 불편하더라도 표본마다 큰 오차가 난다면 실용적이지 않음
- 약간 편향되더라도 오차가 작고 일관되면 오히려 나을 수 있음
그래서 추정량을 평가하는 세 가지 기준이 함께 등장합니다.
📌 3. 세 가지 추정 기준 요약
기준 | 핵심 질문 | 수학적 정의 | 의미 |
---|---|---|---|
불편성 (Unbiasedness) | “평균적으로 맞는가?” | \(E[\hat{\theta}] = \theta\) | 장기적으로 정확한가 |
효율성 (Efficiency) | “덜 흔들리는가?” | 분산이 작을수록 효율적 | 더 정확하게 추정 |
일치성 (Consistency) | “표본 수가 늘어나면 정답에 수렴하는가?” | \(\hat{\theta}_n \xrightarrow{p} \theta\) | 샘플이 크면 맞는 방향 |
→ 이 기준들은 서로 독립이지만 실전에서는 함께 고려되어야 합니다.
📌 4. 평균 vs 중앙값: 종합 비교
항목 | 평균 \(\bar{X}\) | 중앙값 |
---|---|---|
불편성 | ✅ 있음 | ❌ 없음 (소표본에서) |
효율성 | ✅ 가장 효율적 (정규분포 하) | ❌ 상대적으로 낮음 |
일치성 | ✅ | ✅ |
민감도 | ❌ 이상치에 민감 | ✅ 이상치에 강건 |
계산 난이도 | 낮음 | 중간 (정렬 필요) |
사용 사례 | 실험, 계량심리학, 물리 등 | 강건 회귀, 사회통계 등 |
📌 중앙값은 불편하지 않지만, 이상치에 강건하고 실용적으로 유리한 경우가 있음.
특히 분포가 치우친 상황에서는 오히려 중앙값이 안정적입니다.
📌 5. 추정량 선택 시 고려해야 할 질문들
- 데이터 분포가 정규에 가까운가? → 평균이 일반적으로 유리
- 표본 수가 적은가? → 편향과 분산 둘 다 고려
- 이상치(outlier)가 있는가? → 중앙값이 더 안정적
- 목표는 장기적 정확성인가, 일시적 안정성인가? → 불편성 vs 효율성의 균형 고려
📌 6. 정리표: 모든 기준과 추정량 통합
추정량 | 불편성 | 효율성 | 일치성 | 이상치 민감도 |
---|---|---|---|---|
평균 \(\bar{X}\) | ✅ | ✅ (정규 하 최적) | ✅ | ❌ 매우 민감 |
중앙값 | ❌ (소표본) | ❌ | ✅ | ✅ 강건 |
분산 (\(n-1\)) | ✅ | ✅ (MLE와 거의 일치) | ✅ | 보통 |
분산 (\(n\)) | ❌ | ✅ | ✅ | 보통 |
✅ 결론: 좋은 추정량이란 어떤 것인가?
좋은 추정량은 단순히 ‘평균적으로 맞는 것’을 넘어서야 합니다.
그것은 불편성, 효율성, 일치성을 모두 갖추는 동시에, 현실적 조건(이상치, 표본 수, 목적)에 적합해야 합니다.
- 이론적으로는 평균과 \(\frac{1}{n-1}\) 분산이 가장 이상적
- 실용적으로는 중앙값도 충분히 가치 있음
- 결국 추정이란, 정확함과 실용성의 균형을 찾는 작업입니다
'통계학 > 통계이론' 카테고리의 다른 글
IID(Independent and Identically Distributed)란? (0) | 2025.04.18 |
---|---|
표본분산으로 모분산 추정, n-1로 나누어야 하는 이유. 불편성 (0) | 2025.04.12 |
표본분산을 n-1로 나누는 이유 (0) | 2025.04.12 |
- Total
- Today
- Yesterday
- 티스토리챌린지
- c++
- 심리학
- 일본어
- 통계학
- 류근관
- Python
- 윤성우
- C/C++
- C
- 인지부조화
- 통계
- K-MOOC
- 회계
- 일본어문법무작정따라하기
- 데이터분석
- 여인권
- stl
- 파이썬
- 보세사
- jlpt
- 인프런
- 오블완
- 사회심리학
- 강화학습
- 뇌와행동의기초
- 열혈프로그래밍
- 일문따
- 코딩테스트
- 백준
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |