티스토리 뷰
🔷 초기하분포
✅ 정의
초기하분포(Hypergeometric Distribution)는 크기 \( N \)인 유한 모집단에서, 그 중 관심 있는 항목(예: 특정 범주나 속성)을 \( K \)개 포함한 상태로, 복원하지 않고 \( n \)개의 표본을 추출할 때, 그 중 관심 항목이 정확히 \( k \)개 포함될 확률을 설명하는 이산 확률분포입니다.
이 분포는 다음과 같은 모수를 가집니다:
- \( N \): 모집단의 크기
- \( K \): 모집단 중 관심 항목의 수
- \( n \): 추출하는 표본의 크기
- \( X \): 표본 중 관심 항목의 개수 (확률변수)
초기하분포의 확률 질량함수는 다음과 같습니다:
\[ P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}} \]
이는 전체 가능한 추출 경우 중에서, 관심 항목 \( k \)개와 비관심 항목 \( n-k \)개를 동시에 뽑는 조합의 비율로 해석됩니다.
✅ 정의를 쉽게 풀어보기
이 분포는 “뽑고 나서 다시 안 넣는 상황”을 설명합니다. 즉, 한 번 고른 항목은 다시 돌려놓지 않기 때문에, 그다음에 무엇을 뽑을지는 앞에 뽑힌 결과에 영향을 받습니다. 이 때문에 매번 뽑을 확률이 계속 변하게 되며, 이는 매우 현실적인 구조입니다.
예를 들어, 큰 상자 안에 다양한 종류의 공이 들어 있고, 그중 특정 색깔만 골라내고 싶은 상황을 생각해봅시다. 공을 하나 뽑고 다시 넣지 않는다면, 다음에 뽑을 때 그 색의 비율은 이미 달라져 있기 때문에 매 선택은 이전과 독립적이지 않습니다.
초기하분포는 이런 상황에서 내가 원하는 항목이 몇 개 나올지를 예측해줍니다. 복원 추출(다시 넣는 경우)에서는 베르누이나 이항분포를 쓰지만, 이처럼 앞 선택이 다음 확률에 영향을 주는 상황은 초기하분포로 다룹니다.
또한 이 분포는 모집단이 유한할 때만 사용할 수 있습니다. “무한히 많은 공이 있다면?” 이미 처음 전제부터 맞지 않기 때문에 초기하분포도 의미가 없습니다. 따라서 항상 유한 + 비복원, 이 두 조건이 동시에 만족되어야 합니다.
✅ 실생활 예시
✅ 상황 설명
1. 사탕 나눠먹기
한 봉지에 20개의 사탕이 들어 있습니다.
이 중 5개는 딸기맛이고, 나머지는 모두 레몬맛입니다.
여기서 친구들이 무작위로 사탕을 4개씩 나눠 갖는다고 해봅시다.
딸기맛 사탕이 누군가의 몫에 몇 개 들어있을지는 매번 다를 수 있습니다.
중요한 점은, 이미 다른 친구가 가져간 사탕은 다시 돌아오지 않는다는 것입니다. 그 때문에 나중에 뽑는 사람의 선택지는 줄어들고, 그 결과 딸기맛이 나올 확률도 달라집니다.
2. 학생 필통 속 연필 뽑기
어떤 학생이 10자루의 연필을 가지고 있는데,
그중 6자루는 파란색이고 4자루는 검정색입니다.
이 학생이 눈을 감고 연필 3자루를 꺼내 들었다면,
그 안에 파란색 연필이 몇 자루 있을지는 일정하지 않습니다.
연필을 하나 꺼내면 그 색의 개수도 줄고, 전체 개수도 줄기 때문에 다음 연필이 파란색일 확률도 바뀌게 됩니다. 이런 경우에도 초기하분포가 쓰입니다.
3. 공장에서 불량품 검사
공장에서 100개의 제품을 생산했는데,
그중 10개는 불량품이라고 합시다.
이 중에서 5개를 무작위로 뽑아 품질검사를 할 때,
그 안에 불량품이 정확히 몇 개 포함되어 있을지 예상하고 싶다면
초기하분포를 써야 합니다.
검사를 위해 하나씩 제품을 꺼낼 때, 이미 뽑힌 제품은 다시 넣지 않기 때문에 앞선 선택이 뒤 선택에 영향을 미칩니다.
✅ 수식 설명
✅ 조합 기호와 원리
초기하분포의 공식은 다음과 같습니다:
\[ P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}} \]
여기서 사용되는 기호 \(\binom{a}{b}\)는 전체 \( a \)개 중에서 서로 다른 \( b \)개를 고르는 방법의 수를 의미합니다. 이는 수학에서 조합(combination)이라 부르며, 다음과 같은 수식으로 정의됩니다:
\[ \binom{a}{b} = \frac{a!}{b!(a-b)!} \]
예를 들어, ‘a’가 2개, ‘b’가 1개 있는 3개의 문자로 만들 수 있는 문자열은 다음과 같습니다:
- aab
- aba
- baa
이들은 각각 'a'가 들어가는 위치를 다르게 고른 결과이며, 전체 3개 중 2개 자리에 'a'를 배치하는 경우의 수 \(\binom{3}{2} = 3\)과 정확히 일치합니다.
초기하분포의 공식에서 \(\binom{K}{k}\)는 전체 관심 항목 \( K \)개 중 \( k \)개를 고르는 경우, \(\binom{N-K}{n-k}\)는 비관심 항목 중 나머지를 고르는 경우, \(\binom{N}{n}\)은 전체 경우의 수입니다.
✅ 수치 예시
1. 연필 예시
\[ P(X = 2) = \frac{\binom{6}{2} \binom{4}{1}}{\binom{10}{3}} = \frac{15 \cdot 4}{120} = \frac{60}{120} = 0.5 \]
2. 사탕 예시
\[ P(X = 1) = \frac{\binom{5}{1} \binom{15}{3}}{\binom{20}{4}} = \frac{5 \cdot 455}{4845} = \frac{2275}{4845} \approx 0.4696 \]
3. 불량품 예시
\[ P(X = 2) = \frac{\binom{10}{2} \binom{90}{3}}{\binom{100}{5}} = \frac{45 \cdot 117480}{75287520} = \frac{5286600}{75287520} \approx 0.0702 \]
이처럼 초기하분포는 선택 결과가 앞뒤로 영향을 주는 현실적인 구조 속에서, 특정 항목이 몇 개 포함될지를 정확히 예측해주는 강력한 도구입니다.
'통계학 > 여인권-통계학의 이해' 카테고리의 다른 글
초기하분포의 기대값과 분산 (0) | 2025.04.20 |
---|---|
Hypergeometric Distribution (0) | 2025.04.20 |
🔷 이항분포: 모수 (0) | 2025.04.19 |
이항분포의 평균과 분산 (0) | 2025.04.19 |
이항분포란? (0) | 2025.04.19 |
- Total
- Today
- Yesterday
- 여인권
- 윤성우
- 티스토리챌린지
- 백준
- 뇌와행동의기초
- 강화학습
- 통계학
- 코딩테스트
- Python
- 파이썬
- 통계
- 데이터분석
- 회계
- K-MOOC
- 일본어문법무작정따라하기
- 보세사
- 열혈프로그래밍
- c++
- 심리학
- 사회심리학
- 인프런
- C/C++
- 일문따
- stl
- 오블완
- 류근관
- C
- jlpt
- 인지부조화
- 일본어
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |