티스토리 뷰

반응형
초기하분포의 기대값과 분산

🔷 초기하분포의 기대값과 분산

✅ 확률변수 X와 그 범위

초기하분포는 전체 모집단에서 복원하지 않고 일정 수의 표본을 추출할 때, 그 중 특정한 특성(범주)에 속하는 항목이 몇 개인지를 확률적으로 설명하는 이산 확률분포입니다.


확률변수 X는 이때 관심 항목의 개수를 의미하며, 그 범위는 다음과 같이 주어집니다:

max(0,n(NK))Xmin(n,K)

이는 현실에서 가능한 개수를 고려한 범위입니다.

예를 들어 N=20, K=5, n=4라면:

  • min(4,5)=4
  • max(0,4(205))=max(0,11)=0

따라서 X{0,1,2,3,4}입니다.




✅ 확률변수 X는 지시변수의 합

초기하분포에서 X는 다음과 같은 형태로 분해할 수 있습니다:

X=I1+I2++In

여기서 각 Ij는 표본의 j번째 항목이 관심 항목이면 1, 아니면 0인 지시변수입니다.




반응형

 


✅ I_j는 시간 순서가 아니다

Ij는 표본 내의 위치(index)를 의미할 뿐, 추출된 순서를 의미하지 않습니다.

예를 들어 모집단이 딸기맛 사탕(S) 2개, 레몬맛 사탕(L) 3개로 구성되어 있고, 표본으로 3개를 비복원 추출했을 때 (L,S,L)이라는 결과가 나왔다고 해봅시다. 이 경우 다음과 같이 정의됩니다:

  • I1=0: 첫 번째 항목은 레몬맛
  • I2=1: 두 번째 항목은 딸기맛
  • I3=0: 세 번째 항목은 레몬맛

또한 I1,I2,I3는 서로 독립이 아닙니다. 왜냐하면 비복원 추출에서는 한 항목이 선택되면 나머지 항목 선택에 영향을 주기 때문입니다.




E[Ij]=KN인 이유

Ij는 표본의 한 자리에 관심 항목이 나올 확률을 의미합니다. 이는 모집단에서 관심 항목이 차지하는 비율과 정확히 같습니다.

따라서 각 지시변수의 기대값은 다음과 같이 항상 일정합니다:

E[Ij]=KNfor all j{1,,n}




✅ (1,1,0,0,0)으로 지시변수 기대값 전수조사

※ 이 예시는 확률변수 X의 분포를 설명하기 위한 것이 아니라, 각 위치에서의 기대값이 일정하다는 점을 보여주기 위한 시각적 구성입니다.


순열 번호 순열 I1 I2 I3
1(1, 1, 0, 0, 0)110
2(1, 0, 1, 0, 0)101
3(1, 0, 0, 1, 0)100
4(1, 0, 0, 0, 1)100
5(0, 1, 1, 0, 0)011
6(0, 1, 0, 1, 0)010
7(0, 1, 0, 0, 1)010
8(0, 0, 1, 1, 0)001
9(0, 0, 1, 0, 1)001
10(0, 0, 0, 1, 1)000
기댓값0.40.40.4

✅ 표본 기반 예시로 X = I₁ + I₂ 구조 확인

이제 실제 표본에서 I1,I2의 값과 확률을 통해 X의 기대값을 확인해 보겠습니다.


표본 I1 I2 X=I1+I2 P(표본)
(1,1)1120.1
(1,0)1010.3
(0,1)0110.3
(0,0)0000.3
기댓값0.40.40.8



반응형

 


✅ 기댓값 계산 방식 비교

지금까지의 결과를 다시 정리해보면, 아래 세 가지 방식은 모두 일치합니다:

  • 지시변수 기반: 0.4+0.4=0.8
  • 확률분포 기반: 00.3+10.6+20.1=0.8
  • 일반 공식: 225=0.8

세 방식 모두 정확히 같은 결과를 내므로, 수식 구조와 예시가 서로 일관됨을 알 수 있습니다.




✅ 일반화된 기대값 공식 도출

앞에서는 X=I1+I2 구조를 보았지만, 일반적으로 n개의 지시변수로 이루어진 경우도 마찬가지입니다.

X=I1+I2++In이라고 했을 때, 기대값을 계산하면 다음과 같이 전개됩니다:

E[X]=E[I1+I2++In]=E[I1]+E[I2]++E[In]

이 성질은 기댓값의 선형성에 따라 항상 성립합니다.

그리고 각 Ij의 기대값은 모집단에서 관심 항목이 차지하는 비율과 같으므로:

E[Ij]=KN

이제 모든 항이 같아지므로, 전체 기대값은 다음처럼 정리됩니다:

E[X]=nKN=np단, p=KN



✅ 기댓값 계산 방식 비교

지금까지의 결과를 다시 정리해보면, 아래 세 가지 방식은 모두 일치합니다:

  • 지시변수 기반: 0.4+0.4=0.8
  • 확률분포 기반: 00.3+10.6+20.1=0.8
  • 일반 공식: 225=0.8

세 방식 모두 정확히 같은 결과를 내므로, 수식 구조와 예시가 서로 일관됨을 알 수 있습니다.




✅ 최종 결론

초기하분포에서 기대값은 단순한 계산 공식을 넘어, 구조적인 수학 원리와 현실적인 확률 모델을 기반으로 도출된 결과입니다.

  • 각 항목이 관심 항목일 확률은 모집단에서 그 비율과 같고
  • 비록 지시변수 간 독립은 아니지만 선형성 덕분에
  • 기대값은 다음의 간결한 형태로 항상 계산 가능합니다:
E[X]=nKN

이 공식은 단순히 암기할 대상이 아니라, 하나하나의 구조를 통해 직접 이해할 수 있는 확률 이론의 핵심 공식입니다.




반응형
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/06   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
글 보관함