티스토리 뷰
📘 통계학의 기초를 다시 묻다
R. A. Fisher의 1922년 선언: "통계는 과학이 될 수 있는가?"
1️⃣ 통계학은 왜 ‘이론 없이’ 성장했는가?
1922년, Fisher는 통계학계에 도전장을 던졌습니다.
"실용적인 기법은 쏟아지지만, 그 기초 원리는 여전히 혼란스럽다. 우리는 평균을 계산하지만, 평균이 무엇인지 정의할 수 있는가?"
Fisher는 당시 통계학이 실제 문제 해결에는 유용했지만, 그 핵심 개념들(예: 평균, 표준편차, 확률 등)이 일관성 없이 혼용되고 있다고 강하게 비판합니다.
2️⃣ 통계학의 진짜 목적은 무엇인가?
Fisher는 통계학의 목적을 다음처럼 간단명료하게 정의합니다:
"데이터를 요약하고 본질적인 정보만 남기는 것. 즉, 데이터 축약(reduction of data)이다."
하지만 중요한 건 단순 요약이 아닙니다. Fisher는 모든 통계적 추론은 ‘가상의 무한 모집단’ 개념을 전제로 한다고 봅니다.
3️⃣ 통계 문제는 세 가지로 나뉜다
문제 유형 | 설명 | 예시 |
---|---|---|
Specification | 분포 형태를 정하는 문제 | 이 데이터는 정규분포인가? 포아송인가? |
Estimation | 분포의 모수를 추정하는 문제 | 평균, 분산 등의 값은 얼마인가? |
Distribution | 추정량 자체의 분포를 밝히는 문제 | 평균 추정값의 오차 범위는? |
2025.04.11 - [논문 리뷰/통계] - 통계: specification ,estimation, distribution
통계: specification ,estimation, distribution
📊 통계학은 단지 숫자 계산이 아니다: Specification 문제란 무엇인가?🎯 1. 문제의식: 왜 통계학을 다시 정의해야 하는가?많은 사람들은 통계를 단지 "숫자를 요약하는 기술" 정도로 생각합니다.
eunjin123123.tistory.com
3.5️⃣ ‘역확률’: 통계학을 혼란시킨 오래된 유령
Fisher는 특히 “역확률(inverse probability)”이라는 개념이 통계학의 본질을 흐려왔다고 강하게 비판합니다.
※ 참고: 여기서 말하는 ‘역확률’은 오늘날의 “베이즈 추론(Bayesian inference)”과 사실상 동일한 개념입니다.
🧭 역확률이란 무엇인가?
이 데이터가 주어졌을 때, 모수가 그럴 ‘확률’은 얼마인가? 이런 질문에 답하려는 방식이 바로 ‘역확률’입니다.
⚠️ Fisher는 왜 역확률을 비판했나?
- 방향의 문제: 확률은 "모수 → 데이터" 흐름이 맞지만, 역확률은 이를 거꾸로 뒤집습니다.
- 사전확률의 문제: 베이즈 방식은 반드시 사전확률(Prior)을 가정해야 합니다.
개념 | 질문 | 해석 방식 |
---|---|---|
역확률 (베이즈 추론) | 데이터가 주어졌을 때, 모수가 그럴 확률? | 사전확률 필요, 확률 분포 계산 |
우도 (Likelihood) | 이 모수일 때, 이 데이터가 나올 가능성은? | 확률 아님, 상대 비교 기준 |
4️⃣ 좋은 추정량의 기준은 무엇인가?
- 일치성 (Consistency): 표본이 커질수록 참값에 가까워져야 함
- 효율성 (Efficiency): 같은 표본에서 더 낮은 분산 → 더 정밀한 추정
- 충족성 (Sufficiency): 통계량 하나에 정보가 완전히 담겨야 함
기준 | 의미 | 비유 |
---|---|---|
일치성 | 표본이 많아질수록 정답에 가까워짐 | 많이 찍으면 맞춘다 |
효율성 | 오차가 작을수록 좋은 추정 | 같은 렌즈인데 더 선명 |
충족성 | 정보가 빠짐없이 담김 | 원본과 압축파일이 동일 정보 |
2025.04.12 - [논문 리뷰/통계] - 좋은 통계량의 필요 요소 - 일치성,충분성,효율성
좋은 통계량의 필요 요소 - 일치성,충분성,효율성
왜 좋은 추정량이 필요한가?— 추정량을 평가하기 위한 세 가지 기준의 출발점우리는 데이터를 수집하고, 그 데이터를 통해 어떤 ‘숫자’를 계산합니다. 평균, 표준편차, 비율, 회귀계수… 하
eunjin123123.tistory.com
5️⃣ 최대우도추정법(MLE)의 원리
Fisher는 기존 방식(특히 베이즈 추론이나 모멘트법)에 대해 철학적으로나 수학적으로 비판적인 입장을 취하며, 새로운 추정 방식인 최대우도추정법(MLE)을 제안합니다.
핵심 아이디어는 간단합니다:
"관찰된 데이터가 주어졌을 때, 이 데이터를 가장 그럴듯하게 만들어낼 수 있는 모수값을 선택하라."
이를 수학적으로 표현하면 다음과 같습니다.
우도 함수 정의:
L(θ) = f(x₁|θ) × f(x₂|θ) × ... × f(xₙ|θ)
로그 우도 함수:
ℓ(θ) = log L(θ) = Σ log f(xᵢ | θ)
MLE 정의:
θ̂MLE = argmaxθ ℓ(θ)
🧠 예시: 동전 던지기
동전을 10번 던졌더니 7번 앞면이 나왔다고 해봅시다. 우리는 앞면이 나올 확률 θ를 추정하려고 합니다.
이때의 우도 함수는 다음과 같습니다:
L(θ) = θ⁷ × (1 - θ)³
이 함수를 최대화하면 θ = 0.7이 됩니다. 따라서 MLE 추정값은 0.7입니다.
6️⃣ MLE는 왜 베이즈 추론과 다른가?
관점 | 베이즈 추론 (역확률) | MLE (우도 기반 추정) |
---|---|---|
데이터 | 고정 | 고정 |
모수 | 확률 변수 | 고정값 (단지 모를 뿐) |
사전확률 | 필요함 | 필요 없음 |
목적 | 모수의 확률 계산 | 우도를 최대화하는 최적값 선택 |
Fisher는 확률이 모수의 성질이 아니라 데이터가 어떻게 발생할지를 설명하는 도구여야 한다고 봅니다. 우도는 이러한 철학에 따라 확률이 아닌 비교 척도로 정의되며, MLE는 사전 가정 없이 객관적 추정을 가능하게 하는 방식입니다.
7️⃣ MLE vs 모멘트 방법(Method of Moments)
모멘트 방법은 표본의 평균, 분산 등의 모멘트(moment)를 계산해 이론 모멘트와 일치하도록 모수 값을 추정하는 방식입니다.
⚠️ Fisher가 지적한 한계
- 모멘트만 반영하고 전체 데이터 분포는 무시함
- 모멘트가 같더라도 다른 분포 가능성 존재
- 고차 모멘트 불안정 → 계산 정확도 낮음
📊 Pearson Type III 분포 예시
Fisher는 Pearson의 Type III 분포에서 MLE와 모멘트법의 분산을 다음처럼 비교했습니다:
- 모멘트법 분산: VarMoM = a²(p + 1)/n
- MLE 분산: VarMLE = a² / [n(p − 1)]
비교 결과는 아래와 같습니다:
p 값 | 모멘트법 효율성 (%) |
---|---|
3 | 50% |
5 | 66.7% |
10 | 81.8% |
즉, 왜도(skewness)가 강한 경우, 모멘트법은 효율성이 급격히 낮아지고, MLE는 일관적으로 더 나은 추정을 제공합니다.
다음?
이제 Fisher는 MLE가 충족성(sufficiency), 정규성(normality), 불연속 분포에의 확장성까지 갖춘다는 것을 보여줍니다. 이는 MLE가 단순한 계산 기법이 아니라, 통계 추정 이론의 구조적 기준이 될 수 있다는 것을 의미합니다.
8️⃣ MLE는 충족성을 만족하는가?
충족성(Sufficiency)은 Fisher가 가장 강조한 개념 중 하나입니다. 이 개념은 하나의 통계량이 표본이 가진 정보를 전부 담고 있다는 것을 의미합니다.
"추정량이 충분하다는 것은, 그 하나만으로도 표본이 가진 모든 정보를 담고 있다는 뜻이다."
수학적으로는 다음 조건을 만족할 때 충분 통계량이라 합니다:
P(X | T(X), θ) = P(X | T(X))
즉, 충분 통계량 T(X)가 주어졌다면, 전체 표본 X는 더 이상 새로운 정보를 제공하지 않습니다.
Fisher는 최대우도법을 통해 얻은 추정량이 이러한 정보 보존 조건을 만족한다고 주장합니다.
9️⃣ Fisher 정보량과 정규성
Fisher는 다음과 같은 매우 중요한 사실을 증명합니다:
"충분한 표본이 있을 때, MLE는 정규분포에 수렴하며, 그 분산은 우도의 두 번째 미분으로 결정된다."
즉, 최대우도추정량은 대수의 법칙처럼 모수의 주변에서 정규분포 형태로 밀집되며, 그 분산은 Fisher 정보량으로 정의됩니다.
Fisher 정보량 정의:
𝓘(θ) = − E [∂²/∂θ² log L(θ)]
MLE 분산 근사:
Var(θ̂) ≈ 1 / (n × 𝓘(θ))
즉, 정보량이 클수록 정밀한 추정이 가능하고, 정보량이 작을수록 오차가 커지며 많은 표본이 필요합니다.
🔀 10️⃣ 불연속 분포에도 MLE는 적용 가능한가?
Fisher는 MLE가 연속 정규분포뿐 아니라 다양한 불연속적 상황에도 유연하게 적용 가능함을 보여줍니다.
🧪 사례 1: 포아송 분포 (Poisson)
단위 시간당 평균 발생률 λ를 추정할 때, n개의 사건 수 관측값 x₁, x₂, ..., xₙ이 주어졌다고 합시다.
우도 함수:
L(λ) = ∏ [ e^(−λ) × λ^(xᵢ) / xᵢ! ]
로그 우도:
log L(λ) = −nλ + (Σ xᵢ) × log λ − Σ log(xᵢ!)
이 식을 λ에 대해 미분하고 0으로 두면, MLE는 단순히 표본의 평균이 됩니다.
λ̂ = (1/n) × Σ xᵢ
📊 사례 2: 그룹화된 정규 데이터
정규분포에서 데이터가 구간별로 집계된 경우에도, MLE는 구간별 누적확률을 이용하여 최적의 μ와 σ를 추정할 수 있습니다.
수식이 복잡해지지만, MLE의 유도 방식은 동일하게 적용됩니다.
💧 사례 3: 희석 실험 (Dilution Series)
실험자가 희석 농도를 변화시키며 반응 여부(성공/실패)를 관측하는 실험입니다. 각 실험은 이항 분포를 따르고, 반응률의 함수로 모수 추정이 가능해집니다.
MLE는 각 단계의 반응 성공/실패 데이터를 이용하여 최적의 반응 기준 농도를 역산할 수 있습니다.
📌 MLE의 확장성과 강점
분포 유형 | 적용 가능성 | 특징 |
---|---|---|
정규 분포 | 탁월함 | Fisher 정보량 기반 정규성 수렴 |
포아송, 이항 분포 | 매우 유용 | 간결한 추정, 직관적 해석 |
구간 데이터 | 수치해석 필요 | 누적확률 기반 추정 가능 |
실험 기반 반응 데이터 | 모델화 가능 | MLE는 구조에 따라 유연 적용 |
🎯 결론: Fisher가 만든 통계 추론의 기초
Fisher는 이 논문을 통해 통계학을 철학적 명확성과 수학적 정합성을 갖춘 학문으로 이끌었습니다.
- 확률을 데이터 발생의 수단으로 해석
- 우도(likelihood)를 비교 기준으로 정의
- MLE를 통해 일치성, 효율성, 충족성 모두 달성
- Fisher 정보량을 통해 정밀도와 정보량 연결
- 불연속, 실험 데이터까지 포함한 범용성 확보
그 결과, MLE는 단순한 추정 기법이 아니라, 추정 이론 전체를 이끄는 기준으로 자리 잡았습니다.
Fisher, R. A. (1922). On the mathematical foundations of theoretical statistics. Philosophical transactions of the Royal Society of London. Series A, containing papers of a mathematical or physical character, 222(594-604), 309-368.
'논문 리뷰 > 통계' 카테고리의 다른 글
좋은 통계량의 필요 요소 - 일치성,충분성,효율성 (0) | 2025.04.12 |
---|---|
통계: specification ,estimation, distribution (0) | 2025.04.11 |
- Total
- Today
- Yesterday
- 티스토리챌린지
- 여인권
- 회계
- 류근관
- stl
- K-MOOC
- 통계학
- jlpt
- 심리학
- 인프런
- 백준
- 일본어문법무작정따라하기
- 뇌와행동의기초
- EBS
- 정보처리기사
- 파이썬
- Python
- 오블완
- C/C++
- 보세사
- 인지부조화
- 데이터분석
- 코딩테스트
- 일본어
- 윤성우
- c++
- 사회심리학
- 일문따
- C
- 열혈프로그래밍
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |