티스토리 뷰
📊 통계학은 단지 숫자 계산이 아니다: Specification 문제란 무엇인가?
🎯 1. 문제의식: 왜 통계학을 다시 정의해야 하는가?
많은 사람들은 통계를 단지 "숫자를 요약하는 기술" 정도로 생각합니다. 하지만 R. A. Fisher는 그렇게 보지 않았습니다. 그는 통계학이 본질적으로 “무엇을 어떻게 측정하고 해석할 것인가”에 대한 이론적 과학이라 주장했습니다.
Fisher는 당시 통계학이 계산은 발전했지만 개념은 혼란스럽다고 보았습니다. 예컨대, 평균과 분산이라는 용어가 명확한 수학적 기반 없이 혼용되고, 모집단의 개념도 불명확하게 사용되는 현실을 비판했습니다.
그는 이를 해결하기 위해 통계학의 문제를 다음 세 가지로 나누어야 한다고 주장했습니다.
- Specification 문제
- Estimation 문제
- Distribution 문제
이번 글에서는 첫 번째 문제인 Specification, 즉 “어떤 분포를 가정하는가?”에 대해 다룹니다.
🔍 2. Specification 문제: 통계는 '없는 세계'를 가정해야 시작된다
✅ 개념 정의
Specification 문제란, 표본이 추출된 것으로 가정되는 모집단의 분포 형태를 수학적으로 정의하는 일입니다. 이때 말하는 모집단은 실제 존재하는 집합이 아니라, Fisher가 강조하듯 “가상의 무한 모집단”입니다.
📐 수학적 구조
Specification은 일반적으로 다음과 같이 표현됩니다:
P(X = x | θ) = f(x; θ)
여기서 f(x; θ)
는 어떤 분포 함수이며, θ
는 모수(parameter)입니다.
통계학의 모든 분석은 이 분포가 먼저 정의되어야만 가능합니다.
📊 예시: 정규분포는 언제 쓰는가?
- 물리적 오차: 측정값, 기계 편차 등은 종종 정규분포를 따릅니다. 이때는
N(μ, σ²)
를 가정하는 것이 적절합니다. - 보험금 청구액: 절대 음수가 될 수 없고 비대칭인 경우 → 지수분포, 감마분포 등.
⚠️ 잘못된 Specification의 위험
Specification이 잘못되면 추정과 분포 해석 전부가 무의미해집니다. 예:
- 실제는 지수분포인데 정규분포로 가정하면, 극단값 처리에서 큰 오차 발생
- 분산 추정이 부정확해지고, 신뢰구간 왜곡 발생
🧠 3. 철학적 정당화: 왜 Specification이 제1의 문제인가?
Estimation은 “측정”의 문제이고, Distribution은 “신뢰”의 문제라면, Specification은 “존재”의 문제입니다. 통계적 분석이 시작되기 위해서는 먼저 어떤 세계가 있다고 가정하는 것이 선행되어야 합니다.
"분포를 지정하지 않으면, 추정도, 신뢰도도 의미가 없다."
단계 | 의미 | 수학적 표현 |
---|---|---|
Specification | 존재 가정 | f(x; θ) |
Estimation | 존재의 측정 | θ̂ = s(x₁, ..., xₙ) |
Distribution | 측정값의 신뢰 판단 | Sampling distribution of θ̂ |
📌 요약
- Specification은 통계 분석의 출발점이다.
- 잘못된 분포 가정은 모든 후속 분석을 무너뜨린다.
- 모형은 단순 선택이 아닌, 존재의 선언이다.
📈 추정은 단순 계산이 아니다: Estimation 문제의 본질
🎯 1. 문제의식: 평균을 구하는 것이 추정인가?
통계학을 배우면 흔히 “표본평균은 모집단 평균의 추정값”이라고 배웁니다. 하지만 Fisher는 단순히 평균을 계산하는 것이 추정의 본질이 아니라고 봅니다.
그에 따르면, 추정은 표본에 내재된 정보를 어떤 기준에 따라 요약하여 모수를 추론하는 구조적 작업이어야 합니다. 이는 단순한 계산을 넘어서야 하며, 반드시 통계적으로 정당한 방식이어야 한다는 것입니다.
📐 2. 개념 정의: Estimation 문제란 무엇인가?
주어진 표본 x₁, x₂, ..., xₙ
으로부터 모집단 모수 θ
를 어떻게 추정할 것인가? 이는 다음과 같은 함수로 표현됩니다:
θ̂ = s(x₁, ..., xₙ)
여기서 s(·)
는 데이터를 받아 추정값을 계산하는 함수입니다. Fisher는 이 추정량이 단순히 값을 내는 것을 넘어서, 통계적으로 좋은 성질을 갖춰야 한다고 주장합니다.
그 기준으로 그는 일치성(Consistency), 효율성(Efficiency), 충분성(Sufficiency) 세 가지를 제시합니다.
🧮 3. 추정량의 성질: 일치성과 효율성
✅ 3.1 일치성 (Consistency)
추정량이 표본 크기가 커질수록 참값에 수렴해야 합니다:
θ̂ₙ → θ as n → ∞
이는 확률 수렴을 의미하며, 표본이 많아질수록 추정이 신뢰할 만해진다는 뜻입니다.
예시: 표본평균 𝑋̄
은 정규분포에서 평균 μ
에 대해 일치성을 가짐.
✅ 3.2 효율성 (Efficiency)
동일한 조건에서 추정량의 분산이 작을수록 효율적입니다. 수식으로는 다음과 같이 정의됩니다:
Efficiency = Var(best estimator) / Var(given estimator)
효율성은 얼마나 정보를 잘 사용하고 있는지를 수치화합니다. 효율성이 낮다는 것은 더 많은 표본이 필요하다는 뜻입니다.
예시: 정규분포의 분산 추정 시, 1/n
보정식보다 1/(n-1)
보정식을 사용하는 것이 더 효율적입니다.
🔬 4. 예시: 다양한 평균 추정 방식 비교
아래는 동일한 데이터를 가지고 평균을 추정하는 네 가지 방법입니다.
방법 | 정의 | 일치성 | 효율성 |
---|---|---|---|
A | 표본평균 𝑋̄ |
✅ | ✅ |
B | 첫 번째 관측값 x₁ |
✅ | ❌ |
C | 최댓값 | ❌ | ❌ |
D | 중앙값 | ✅ | △ |
Fisher의 핵심 주장은, 추정은 단순한 계산이 아니라 정보를 얼마나 압축하고 유지하는가의 문제라는 점입니다.
🧠 5. 철학적 정당화: 추정은 정보 요약이다
표본은 단순한 숫자 모음이 아니라, 그 안에는 모수 θ
에 대한 정보가 담겨 있습니다. 추정이란 이 고차원 정보를 하나의 수치로 요약하는 것이며, 이때 정보 손실이 적고, 정확하고, 신뢰할 수 있어야 합니다.
"좋은 추정량이란, 표본에 담긴 정보를 가능한 한 잃지 않고 담아내는 수치다."
📌 요약
개념 | 정의 | 수학적 조건 | 의의 |
---|---|---|---|
일치성 | 표본 크기 증가 시 참값에 수렴 | θ̂ₙ → θ |
최소 신뢰 조건 |
효율성 | 분산이 가장 작은 추정량 선호 | Var 최소 |
정보 사용의 정도 |
🧠 정보를 잃지 않는 추정: Sufficiency와 Maximum Likelihood
🎯 1. 문제의식: “충분한” 추정량이란 도대체 무엇인가?
일치성이나 효율성만으로는 추정량의 품질을 완전히 설명할 수 없습니다. Fisher는 “표본이 가진 정보를 낭비하지 않는가?”를 판단하기 위해 충분성(Sufficiency)이라는 기준을 제시합니다.
이 개념은 추정량이 표본의 모든 유의미한 정보를 담고 있는지를 평가하기 위한 핵심 기준입니다.
📐 2. Sufficiency란 무엇인가?
통계량 T(X)
이 충분하다는 것은, 그것만 알면 표본 전체를 알고 있을 때와 모수 θ에 대한 정보가 동등하다는 뜻입니다.
f(x₁, ..., xₙ; θ) = g(T(X), θ) · h(x₁, ..., xₙ)
위와 같은 분해(factorization)가 가능하면, T(X)
는 θ에 대한 충분통계량입니다.
🔍 3. 예시: 정규분포에서의 충분통계량
정규분포 N(μ, σ²)
에서, 다음 두 통계량은 충분합니다:
- 합계
∑xᵢ
→ 평균 관련 정보 - 편차 제곱합
∑(xᵢ - x̄)²
→ 분산 관련 정보
이 두 가지를 알고 있으면 전체 표본을 모르더라도 μ
와 σ²
에 대한 정보를 모두 얻을 수 있습니다.
📉 4. 충분하지 않은 추정의 위험
충분성 없는 추정량은 다음과 같은 문제를 일으킬 수 있습니다:
- 정보 손실: 표본에 있었던 힌트를 무시함
- 비효율: 같은 정확도를 얻기 위해 더 많은 표본이 필요
- 신뢰도 왜곡: 신뢰구간, 검정 등이 부정확해짐
🚀 5. 최대우도법 (Maximum Likelihood Method)
✅ 개념
우도(Likelihood)는 관측된 데이터가 어떤 θ 아래에서 발생할 확률의 함수입니다:
L(θ) = ∏ f(xᵢ; θ)
로그우도는 다음과 같습니다:
ℓ(θ) = ∑ log f(xᵢ; θ)
최대우도 추정량 θ̂는 이 로그우도를 θ에 대해 최대화하는 값입니다.
📌 예시: 이항분포
- 분포:
X ~ Bin(n, p)
- 우도 함수:
L(p) = C(n, x) pˣ (1 - p)ⁿ⁻ˣ
- 로그우도 함수:
ℓ(p) = x log p + (n - x) log(1 - p)
- 미분 →
θ̂ = x / n
이 결과는 직관적으로 보일 수 있지만, MLE가 데이터를 가장 잘 설명하는 p
를 선택한다는 점에서 정보론적으로도 최적입니다.
🔗 6. Sufficiency와 MLE의 연결
Fisher는 다음과 같이 말합니다: “MLE는 대부분 충분통계량을 생성한다.”
우도를 최대화하는 과정에서, 데이터의 불필요한 정보를 제거하고, 모수와 관련된 정보만 남게 되기 때문입니다. 따라서 MLE는 계산적으로도 효율적이며, 정보론적으로도 낭비가 적습니다.
🧠 7. 철학적 의미
통계학은 유한한 데이터를 통해 미지의 세계를 추론하는 일입니다. 이때 우리는 단순 계산이 아닌, 세 가지 구조를 동시에 고려해야 합니다:
기준 | 의미 | 평가 지표 |
---|---|---|
일치성 | 추정값이 참값으로 수렴 | θ̂ₙ → θ |
효율성 | 정보 낭비 없이 정확 | Var 최소 |
충분성 | 표본의 정보 전부 반영 | Factorization 기준 충족 |
"MLE는 단순한 추정법이 아니라, 정보를 가장 잘 보존하는 해석 도구다."
- Fisher는 통계학의 본질을 Specification, Estimation, Distribution 세 문제로 구조화하며, 단순 계산이 아닌 이론적 정당화가 필요하다고 주장했다.
- Estimation에서는 추정량이 일치성, 효율성을 만족해야 하며, 정보 낭비 없이 모수를 요약하는 것이 핵심이라고 본다.
- Sufficiency는 추정량이 표본의 모든 정보를 담고 있어야 함을 의미하며, Fisher는 이를 실현하는 방법으로 최대우도법(MLE)을 제안했다.
'논문 리뷰 > 통계' 카테고리의 다른 글
좋은 통계량의 필요 요소 - 일치성,충분성,효율성 (0) | 2025.04.12 |
---|---|
Fisher의 이론 통계, 그리고 MLE (0) | 2025.04.11 |
- Total
- Today
- Yesterday
- 통계학
- K-MOOC
- jlpt
- c++
- 일문따
- 류근관
- stl
- 강화학습
- 심리학
- 사회심리학
- 회계
- 파이썬
- 일본어
- 오블완
- 윤성우
- 티스토리챌린지
- C/C++
- 일본어문법무작정따라하기
- 인지부조화
- Python
- 뇌와행동의기초
- 인프런
- 코딩테스트
- 백준
- 여인권
- 보세사
- C
- 열혈프로그래밍
- 데이터분석
- 통계
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |