티스토리 뷰
🔷 초기하분포의 기대값과 분산
✅ 확률변수 X와 그 범위
초기하분포는 전체 모집단에서 복원하지 않고 일정 수의 표본을 추출할 때, 그 중 특정한 특성(범주)에 속하는 항목이 몇 개인지를 확률적으로 설명하는 이산 확률분포입니다.
확률변수 \( X \)는 이때 관심 항목의 개수를 의미하며, 그 범위는 다음과 같이 주어집니다:
\[ \max(0, n - (N - K)) \leq X \leq \min(n, K) \]
이는 현실에서 가능한 개수를 고려한 범위입니다.
예를 들어 \( N = 20 \), \( K = 5 \), \( n = 4 \)라면:
- \( \min(4, 5) = 4 \)
- \( \max(0, 4 - (20 - 5)) = \max(0, -11) = 0 \)
따라서 \( X \in \{ 0, 1, 2, 3, 4 \} \)입니다.
✅ 확률변수 X는 지시변수의 합
초기하분포에서 \( X \)는 다음과 같은 형태로 분해할 수 있습니다:
\[ X = I_1 + I_2 + \cdots + I_n \]
여기서 각 \( I_j \)는 표본의 \( j \)번째 항목이 관심 항목이면 1, 아니면 0인 지시변수입니다.
✅ I_j는 시간 순서가 아니다
\( I_j \)는 표본 내의 위치(index)를 의미할 뿐, 추출된 순서를 의미하지 않습니다.
예를 들어 모집단이 딸기맛 사탕(S) 2개, 레몬맛 사탕(L) 3개로 구성되어 있고, 표본으로 3개를 비복원 추출했을 때 \( (L, S, L) \)이라는 결과가 나왔다고 해봅시다. 이 경우 다음과 같이 정의됩니다:
- \( I_1 = 0 \): 첫 번째 항목은 레몬맛
- \( I_2 = 1 \): 두 번째 항목은 딸기맛
- \( I_3 = 0 \): 세 번째 항목은 레몬맛
또한 \( I_1, I_2, I_3 \)는 서로 독립이 아닙니다. 왜냐하면 비복원 추출에서는 한 항목이 선택되면 나머지 항목 선택에 영향을 주기 때문입니다.
✅ \(\mathbb{E}[I_j] = \frac{K}{N}\)인 이유
각 \( I_j \)는 표본의 한 자리에 관심 항목이 나올 확률을 의미합니다. 이는 모집단에서 관심 항목이 차지하는 비율과 정확히 같습니다.
따라서 각 지시변수의 기대값은 다음과 같이 항상 일정합니다:
\[ \mathbb{E}[I_j] = \frac{K}{N} \quad \text{for all } j \in \{1, \dots, n\} \]
✅ (1,1,0,0,0)으로 지시변수 기대값 전수조사
※ 이 예시는 확률변수 X의 분포를 설명하기 위한 것이 아니라, 각 위치에서의 기대값이 일정하다는 점을 보여주기 위한 시각적 구성입니다.
✅ 표본 기반 예시로 X = I₁ + I₂ 구조 확인
이제 실제 표본에서 \( I_1, I_2 \)의 값과 확률을 통해 \( X \)의 기대값을 확인해 보겠습니다.
✅ 기댓값 계산 방식 비교
지금까지의 결과를 다시 정리해보면, 아래 세 가지 방식은 모두 일치합니다:
- 지시변수 기반: \( 0.4 + 0.4 = 0.8 \)
- 확률분포 기반: \( 0 \cdot 0.3 + 1 \cdot 0.6 + 2 \cdot 0.1 = 0.8 \)
- 일반 공식: \( 2 \cdot \frac{2}{5} = 0.8 \)
세 방식 모두 정확히 같은 결과를 내므로, 수식 구조와 예시가 서로 일관됨을 알 수 있습니다.
✅ 일반화된 기대값 공식 도출
앞에서는 \( X = I_1 + I_2 \) 구조를 보았지만, 일반적으로 \( n \)개의 지시변수로 이루어진 경우도 마찬가지입니다.
\( X = I_1 + I_2 + \cdots + I_n \)이라고 했을 때, 기대값을 계산하면 다음과 같이 전개됩니다:
이 성질은 기댓값의 선형성에 따라 항상 성립합니다.
그리고 각 \( I_j \)의 기대값은 모집단에서 관심 항목이 차지하는 비율과 같으므로:
이제 모든 항이 같아지므로, 전체 기대값은 다음처럼 정리됩니다:
✅ 기댓값 계산 방식 비교
지금까지의 결과를 다시 정리해보면, 아래 세 가지 방식은 모두 일치합니다:
- 지시변수 기반: \( 0.4 + 0.4 = 0.8 \)
- 확률분포 기반: \( 0 \cdot 0.3 + 1 \cdot 0.6 + 2 \cdot 0.1 = 0.8 \)
- 일반 공식: \( 2 \cdot \frac{2}{5} = 0.8 \)
세 방식 모두 정확히 같은 결과를 내므로, 수식 구조와 예시가 서로 일관됨을 알 수 있습니다.
✅ 최종 결론
초기하분포에서 기대값은 단순한 계산 공식을 넘어, 구조적인 수학 원리와 현실적인 확률 모델을 기반으로 도출된 결과입니다.
- 각 항목이 관심 항목일 확률은 모집단에서 그 비율과 같고
- 비록 지시변수 간 독립은 아니지만 선형성 덕분에
- 기대값은 다음의 간결한 형태로 항상 계산 가능합니다:
이 공식은 단순히 암기할 대상이 아니라, 하나하나의 구조를 통해 직접 이해할 수 있는 확률 이론의 핵심 공식입니다.
'통계학 > 여인권-통계학의 이해' 카테고리의 다른 글
포아송분포란? 개념, 정의, 필요성, 공식유도! (0) | 2025.05.22 |
---|---|
Expectation and Variance of the Hypergeometric Distribution (0) | 2025.04.20 |
Hypergeometric Distribution (0) | 2025.04.20 |
초기하분포(Hypergeometric Distribution)란? (0) | 2025.04.20 |
🔷 이항분포: 모수 (0) | 2025.04.19 |
- Total
- Today
- Yesterday
- 류근관
- 행동심리학
- 인지부조화
- 학습심리학
- 백준
- K-MOOC
- 티스토리챌린지
- Python
- 윤성우
- 강화학습
- 데이터분석
- c++
- 회계
- 통계
- 열혈프로그래밍
- 유통관리사
- 심리학
- 오블완
- 일본어문법무작정따라하기
- 조건형성
- 파이썬
- 코딩테스트
- C
- 물류관리사
- 행동주의
- 정보처리기사
- 보세사
- 일문따
- 통계학
- 학습이론
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |