티스토리 뷰

반응형
초기하분포

🔷 초기하분포

✅ 정의

초기하분포(Hypergeometric Distribution)는 크기 \( N \)인 유한 모집단에서, 그 중 관심 있는 항목(예: 특정 범주나 속성)을 \( K \)개 포함한 상태로, 복원하지 않고 \( n \)개의 표본을 추출할 때, 그 중 관심 항목이 정확히 \( k \)개 포함될 확률을 설명하는 이산 확률분포입니다.


이 분포는 다음과 같은 모수를 가집니다:

  • \( N \): 모집단의 크기
  • \( K \): 모집단 중 관심 항목의 수
  • \( n \): 추출하는 표본의 크기
  • \( X \): 표본 중 관심 항목의 개수 (확률변수)

초기하분포의 확률 질량함수는 다음과 같습니다:

\[ P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}} \]

이는 전체 가능한 추출 경우 중에서, 관심 항목 \( k \)개와 비관심 항목 \( n-k \)개를 동시에 뽑는 조합의 비율로 해석됩니다.




✅ 정의를 쉽게 풀어보기

이 분포는 “뽑고 나서 다시 안 넣는 상황”을 설명합니다. 즉, 한 번 고른 항목은 다시 돌려놓지 않기 때문에, 그다음에 무엇을 뽑을지는 앞에 뽑힌 결과에 영향을 받습니다. 이 때문에 매번 뽑을 확률이 계속 변하게 되며, 이는 매우 현실적인 구조입니다.


예를 들어, 큰 상자 안에 다양한 종류의 공이 들어 있고, 그중 특정 색깔만 골라내고 싶은 상황을 생각해봅시다. 공을 하나 뽑고 다시 넣지 않는다면, 다음에 뽑을 때 그 색의 비율은 이미 달라져 있기 때문에 매 선택은 이전과 독립적이지 않습니다.


초기하분포는 이런 상황에서 내가 원하는 항목이 몇 개 나올지를 예측해줍니다. 복원 추출(다시 넣는 경우)에서는 베르누이나 이항분포를 쓰지만, 이처럼 앞 선택이 다음 확률에 영향을 주는 상황은 초기하분포로 다룹니다.


또한 이 분포는 모집단이 유한할 때만 사용할 수 있습니다. “무한히 많은 공이 있다면?” 이미 처음 전제부터 맞지 않기 때문에 초기하분포도 의미가 없습니다. 따라서 항상 유한 + 비복원, 이 두 조건이 동시에 만족되어야 합니다.




반응형

 


✅ 실생활 예시

✅ 상황 설명

1. 사탕 나눠먹기
한 봉지에 20개의 사탕이 들어 있습니다. 이 중 5개는 딸기맛이고, 나머지는 모두 레몬맛입니다. 여기서 친구들이 무작위로 사탕을 4개씩 나눠 갖는다고 해봅시다. 딸기맛 사탕이 누군가의 몫에 몇 개 들어있을지는 매번 다를 수 있습니다.


중요한 점은, 이미 다른 친구가 가져간 사탕은 다시 돌아오지 않는다는 것입니다. 그 때문에 나중에 뽑는 사람의 선택지는 줄어들고, 그 결과 딸기맛이 나올 확률도 달라집니다.


2. 학생 필통 속 연필 뽑기
어떤 학생이 10자루의 연필을 가지고 있는데, 그중 6자루는 파란색이고 4자루는 검정색입니다. 이 학생이 눈을 감고 연필 3자루를 꺼내 들었다면, 그 안에 파란색 연필이 몇 자루 있을지는 일정하지 않습니다.


연필을 하나 꺼내면 그 색의 개수도 줄고, 전체 개수도 줄기 때문에 다음 연필이 파란색일 확률도 바뀌게 됩니다. 이런 경우에도 초기하분포가 쓰입니다.


3. 공장에서 불량품 검사
공장에서 100개의 제품을 생산했는데, 그중 10개는 불량품이라고 합시다. 이 중에서 5개를 무작위로 뽑아 품질검사를 할 때, 그 안에 불량품이 정확히 몇 개 포함되어 있을지 예상하고 싶다면 초기하분포를 써야 합니다.


검사를 위해 하나씩 제품을 꺼낼 때, 이미 뽑힌 제품은 다시 넣지 않기 때문에 앞선 선택이 뒤 선택에 영향을 미칩니다.




✅ 수식 설명

✅ 조합 기호와 원리

초기하분포의 공식은 다음과 같습니다:

\[ P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}} \]

여기서 사용되는 기호 \(\binom{a}{b}\)는 전체 \( a \)개 중에서 서로 다른 \( b \)개를 고르는 방법의 수를 의미합니다. 이는 수학에서 조합(combination)이라 부르며, 다음과 같은 수식으로 정의됩니다:

\[ \binom{a}{b} = \frac{a!}{b!(a-b)!} \]

예를 들어, ‘a’가 2개, ‘b’가 1개 있는 3개의 문자로 만들 수 있는 문자열은 다음과 같습니다:

  • aab
  • aba
  • baa

이들은 각각 'a'가 들어가는 위치를 다르게 고른 결과이며, 전체 3개 중 2개 자리에 'a'를 배치하는 경우의 수 \(\binom{3}{2} = 3\)과 정확히 일치합니다.


초기하분포의 공식에서 \(\binom{K}{k}\)는 전체 관심 항목 \( K \)개 중 \( k \)개를 고르는 경우, \(\binom{N-K}{n-k}\)는 비관심 항목 중 나머지를 고르는 경우, \(\binom{N}{n}\)은 전체 경우의 수입니다.




반응형

 


✅ 수치 예시

1. 연필 예시

\[ P(X = 2) = \frac{\binom{6}{2} \binom{4}{1}}{\binom{10}{3}} = \frac{15 \cdot 4}{120} = \frac{60}{120} = 0.5 \]

2. 사탕 예시

\[ P(X = 1) = \frac{\binom{5}{1} \binom{15}{3}}{\binom{20}{4}} = \frac{5 \cdot 455}{4845} = \frac{2275}{4845} \approx 0.4696 \]

3. 불량품 예시

\[ P(X = 2) = \frac{\binom{10}{2} \binom{90}{3}}{\binom{100}{5}} = \frac{45 \cdot 117480}{75287520} = \frac{5286600}{75287520} \approx 0.0702 \]




이처럼 초기하분포는 선택 결과가 앞뒤로 영향을 주는 현실적인 구조 속에서, 특정 항목이 몇 개 포함될지를 정확히 예측해주는 강력한 도구입니다.

반응형

'통계학 > 여인권-통계학의 이해' 카테고리의 다른 글

초기하분포의 기대값과 분산  (0) 2025.04.20
Hypergeometric Distribution  (0) 2025.04.20
🔷 이항분포: 모수  (0) 2025.04.19
이항분포의 평균과 분산  (0) 2025.04.19
이항분포란?  (0) 2025.04.19
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함
반응형