티스토리 뷰
반응형
🎯 이항 분포로는 복잡하고, 포아송 분포로는 쉬운 이유
– 로또로 배우는 포아송 근사의 원리
여러분은 로또를 사 본 적 있나요?로또에 당첨되기란 정말 어려운 일이죠.
그런데 만약 우리가 이런 질문을 한다면 어떨까요?
“오늘 로또 1등 당첨자가 정확히 3명 나올 확률은 얼마일까?”이걸 풀기 위해 수학자들은 확률 분포라는 도구를 사용합니다.
가장 먼저 떠오르는 건 이항 분포입니다.
🧮 이항 분포로 로또를 모델링해보자
- 전체 로또 응모자 수: \( n = 5{,}000{,}000 \)
- 한 사람이 당첨될 확률: \( p = \frac{1}{5{,}000{,}000} \)
- 관심 있는 사건: 정확히 3명이 당첨될 확률
- 조합 값은 수조 단위
- 확률은 너무 작고
- 거듭제곱 횟수는 수백만 번
❗ 계산을 간단하게 만들 수는 없을까?
수학자들은 여기서 아이디어를 냅니다:“응모자 수가 아주 많고, 당첨 확률이 아주 작을 때이때 사용하는 아이디어가 바로 포아송 근사(Poisson approximation)입니다.
전체 당첨자 수는 평균적으로 일정하게 나오지 않을까?”
🔁 포아송 근사란 무엇인가?
포아송 근사는 복잡한 이항 분포를계산이 훨씬 쉬운 포아송 분포로 바꿔서 근사적으로 계산하는 방법입니다. 단순히 바꿔버리는 게 아니라,
특정한 조건이 만족될 때에만 가능한 근사입니다.
✅ 포아송 근사의 조건
- 시행 횟수 \( n \)이 매우 크고
- 성공 확률 \( p \)는 매우 작고
- 평균 성공 횟수 \( \lambda = n \cdot p \)는 일정한 값을 유지할 때
전체적으로 평균 몇 번 성공이 기대되는지를 나타내는 값입니다.
이 수식이 바로 우리가 알고 있는 포아송 분포 공식입니다.
반응형
🧪 포아송 근사 유도: 수식 하나도 빠짐없이 따라가기
이제 이항 분포가 포아송 분포로 어떻게 바뀌는지를수식 하나하나 생략 없이, 논리적으로 연결된 흐름으로 완전히 따라가 보겠습니다.
① 이항 분포의 일반식
$$ P(X = k) = \binom{n}{k} \cdot p^k \cdot (1 - p)^{n - k} $$ 이 식을 하나하나 바꾸어서 결국 포아송 분포의 형태인 $$ P(X = k) = \frac{\lambda^k \cdot e^{-\lambda}}{k!} $$ 로 만드는 것이 목표입니다.② 조합 항 근사 \( \binom{n}{k} \)
$$ \binom{n}{k} = \frac{n(n - 1)(n - 2) \cdots (n - k + 1)}{k!} $$ 여기서 중요한 조건은 포아송 근사에서는 \( n \)이 매우 크고, \( k \)는 작다는 것입니다. 예를 들어 \( n = 5{,}000{,}000 \), \( k = 3 \)이라면: $$ 5{,}000{,}000 \cdot 4{,}999{,}999 \cdot 4{,}999{,}998 \approx 5{,}000{,}000^3 $$ 그래서 전체 조합 항은: $$ \binom{5{,}000{,}000}{3} \approx \frac{5{,}000{,}000^3}{3!} $$ 보다 일반적으로도: $$ \binom{n}{k} \approx \frac{n^k}{k!} $$③ 평균 성공 횟수 \( \lambda \) 도입
포아송 근사를 쉽게 하기 위해\( n \)과 \( p \) 대신 \( \lambda = n \cdot p \)라는 값을 사용합니다. 예시: $$ \lambda = n \cdot p = 5{,}000{,}000 \cdot \frac{1}{5{,}000{,}000} = 1 $$ 그래서: $$ p = \frac{\lambda}{n} $$
반응형
④ 확률 항 근사 \( p^k \)
$$ p^k = \left( \frac{\lambda}{n} \right)^k = \frac{\lambda^k}{n^k} $$⑤ 실패 확률 항 근사 \( (1 - p)^{n - k} \)
$$ (1 - p)^{n - k} \approx (1 - p)^n = \left( 1 - \frac{\lambda}{n} \right)^n \approx e^{-\lambda} $$ 예: $$ (1 - p)^n = \left( 1 - \frac{1}{5{,}000{,}000} \right)^{5{,}000{,}000} \approx e^{-1} \approx 0.3679 $$⑥ 전체 식 결합
원래 이항 분포: $$ P(X = k) = \binom{n}{k} \cdot p^k \cdot (1 - p)^{n - k} $$ 모든 근사 항 대입: $$ P(X = k) \approx \left( \frac{n^k}{k!} \right) \cdot \left( \frac{\lambda^k}{n^k} \right) \cdot e^{-\lambda} = \frac{\lambda^k}{k!} \cdot e^{-\lambda} $$🎉 최종 결과: 포아송 분포 공식
$$ P(X = k) = \frac{\lambda^k \cdot e^{-\lambda}}{k!} $$ 이것이 바로 우리가 원하던 포아송 분포 공식입니다.복잡한 \( n \), \( p \) 대신 하나의 값 \( \lambda \)만으로
확률을 간단하게 계산할 수 있게 되었습니다.
반응형
📊 이항 분포 vs 포아송 분포: 실제 수치 비교
이제 실제로 이항 분포로 계산한 확률값과,같은 상황에서 포아송 분포로 근사한 확률값이 얼마나 차이나는지 비교해 보겠습니다.
예시 상황
- 전체 응모자 수: \( n = 5{,}000{,}000 \)
- 한 사람이 당첨될 확률: \( p = \frac{1}{5{,}000{,}000} \)
- 평균 성공 횟수: \( \lambda = np = 1 \)
- 목표: \( X = 0, 1, 2, 3 \)일 확률 계산
① 이항 분포로 계산한 값
$$ P_{\text{Binomial}}(X = k) = \binom{n}{k} \cdot p^k \cdot (1 - p)^{n - k} $$ 이항 분포 계산 결과:② 포아송 분포로 근사한 값
$$ P_{\text{Poisson}}(X = k) = \frac{\lambda^k \cdot e^{-\lambda}}{k!} \quad (\lambda = 1) $$ 포아송 분포 계산 결과:✅ 비교 결과
- 오차가 사실상 0에 가깝다
- 특히 \( \lambda \)가 작고, \( n \)이 크고, \( p \)가 작을수록 근사 정확도가 매우 높다
- 즉, 이런 상황에서는 포아송 근사가 실제 이항 분포와 거의 같다고 볼 수 있음
📈 이항 분포 vs 포아송 분포 그래프
- X축: \( k \)값 (성공 횟수, 예: 0, 1, 2, ..., 10)
- Y축: 각 \( k \)에 대한 확률값
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import binom, poisson
# Parameters
n = 5_000_000
p = 1 / 5_000_000
lam = 1
k = np.arange(0, 11)
# PMFs
binomial_pmf = binom.pmf(k, n, p)
poisson_pmf = poisson.pmf(k, lam)
# Plot
plt.figure(figsize=(8, 4))
plt.plot(k, binomial_pmf, 'bo-', label='Binomial (n=5e6, p=1/5e6)')
plt.plot(k, poisson_pmf, 'gs--', label='Poisson (λ=1)')
plt.title('Binomial vs Poisson Distribution', fontsize=14)
plt.xlabel('Number of occurrences (k)', fontsize=12)
plt.ylabel('Probability P(X = k)', fontsize=12)
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()
포아송 분포와 이항분포는 잘 근사되는 것을 볼 수 있따!
반응형
✅ 최종 요약 정리 (표 포함)
반응형
'통계학 > 여인권-통계학의 이해' 카테고리의 다른 글
Expectation and Variance of the Hypergeometric Distribution (0) | 2025.04.20 |
---|---|
초기하분포의 기대값과 분산 (0) | 2025.04.20 |
Hypergeometric Distribution (0) | 2025.04.20 |
초기하분포(Hypergeometric Distribution)란? (0) | 2025.04.20 |
🔷 이항분포: 모수 (0) | 2025.04.19 |
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 통계
- 윤성우
- C
- 백준
- 티스토리챌린지
- 파이썬
- 정보처리기사
- 보세사
- C/C++
- 사회심리학
- 열혈프로그래밍
- 데이터분석
- 류근관
- stl
- 강화학습
- 인프런
- 코딩테스트
- K-MOOC
- 회계
- 오블완
- 일본어
- 여인권
- 일본어문법무작정따라하기
- 심리학
- 통계학
- 일문따
- c++
- 인지부조화
- Python
- 뇌와행동의기초
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
글 보관함