타리스만

이항분포 시각화와 조합 이용한 이항확률 계산

지난시간에 이항변수의 개념과 확률변수가 이항변수로 정의되기 위한 4가지 조건에 대해 알아보았다.

 

 

 

이항확률변수의 충족조건과 독립시행, 10%의 법칙

이항변수라고 알려져 있는 확률변수의 특수한 종류에 대해 알아보자. 이항변수, Binomial Variables란 이산확률변수 discrete random variable의 한가지 종류이다. 고정된 숫자의 시도에서 (fixed number of trei..

tali.tistory.com

 

번에는

이항변수의 확률분포

를 구해보자.

 

확률변수 X를 동전 5번을 던졌을 때 H(앞면) 나올 횟수로 정의한다. X는 0,1,2,3,4,5의 값을 가질 수 있다.

 

한번을 던질 때 두가지의 경우의 수가 나올 수 있으므로 5번을 던질때 가능한 총 경우의 수는 2*2*2*2*2=2⁵=32 이다. P(X=0) 즉 앞면이 한번도 안나올 확률은 1/32가 된다.

 

이는 직관적으로 생각할 수 있는 문제이지만 확률변수의 값이 커질수록 이항계수와 (binomial coefficients) 조합 (combinatorics) 등을 생각해서 계산하는 것이 효율적이다.

 

1/32에서 1은 5번의 던지기에서 0개의 앞면을 선택한 것이다. 이를 조합을 이용해서 ₅C₀ 라고 표기한다. ₅C₀ 는 5!/{0!*(5-0)!} 로 나타낼 수 있다. 0!은 소거해주고 (5-0)!=5! 이므로 ₅C₀=5!/5!=1이다. 직관적으로 생각한 1/32는 ₅C₀/32로나타낼수 있고 그 결과는 둘다 1/32로 같다.

 

X=1~5까지의 확률도 마찬가지로 구해본다.

 

P(X=1)은 5번의 시도 중 앞면이 한번 나왔을 확률인데, 경우의 수로 생각해보면 총 5가지가 있다. 따라서 5/32로 나타낼 수 있고 마찬가지로 이것을 조합을 이용하여 계산하면 5번 중 1번을 뽑을 확률 ₅C₁로 나타낼 수 있다.

 

₅C₁ = 5!/{1!(5-1)!} = 5!/4! = 5 가 되고 따라서 조합으로 계산한 확률도 5/32로 동일하다. 마찬가지로 X=2~5일 경우의 확률도 조합을 이용하여 위 그림과 같이 각각 계산할 수 있다. 이제 이 이항변수를 시각화하여 이항분포로 나타내보자.

 

 

 

이항변수의 시각화, 이항분포

 

가로축에 확률변수가 가질 수 있는 값 X=0~5를 표시하고 각각에 대해 구해놓은 확률값을 Y축에 나타낸다. 이러한 이산확률분포는 점점 높아지다가 감소하는데 이렇게 대칭성을 가지는 분포를 Binomial Distribution 이라 부른다.

 

만약 X가 무한히 많은 수로 쪼개진다면 확률값의 분포는 점점 곡선에 가까워질 것인데 이렇게 대칭인 종모양의 형태를 정규분포라고 한다. 실생활의 많은 경우에서 정규분포를 가정하는 것이 효율적이고 합리적이기 때문에 널리 쓰이고 있다.


조합을 이용해 이항확률 구하는 예제문제

 

자유투의 성공확률이 0.7이라고 할 때 (실패확률은 자연히 0.3) 6번 던져서 딱 2번 성공할 확률은?

 

성공 성공 실패 실패 실패 실패 이렇게 나와야 하므로

0.7*0.7*0.3*0.3*0.3*0.3 = 0.49*0.0081 로 계산된다.

 

그런데 이 때 실패 성공 실패 성공 실패 실패 이런 식으로도 경우의 수가 나올 수 있고, 확률은 똑같다. 즉 구한 확률에 성공 두번이 나올 전체 경우의 수를 곱해주면 2번 성공할 확률의 총합이 된다. 이는 이제 조합으로 구해야 한다. 결국 이항확률을 구하기 위해선 조합과 순열의 개념도 알아야 한다는 말.

 

6개중에 2개를 고르는 경우의 수는 ₆C₂ = 6! / { 2! (6-2)! } = 6*5*4*3*2*1 / 2*1*4*3*2*1 = 15

 

즉 여섯번 던져서 두번만 성공하는 경우의 수는 15가지가 있다는 소리이다. 그러면 최초에 구하려고 했던 확률은

 

₆C₂ * (0.7)² * (0.3)⁴ = 15 * 0.49 * 0.0081 = 0.05935 로 약 6%가 된다.


이 문제를 이용하여

n번의 시도 중 k회 성공 일반화

하는 경우로 나타내보자.

 

위와 같이 확률을 계산했던 식의 6과 2 부분을 각각 n과 k로 표현하고, 성공 확률을 f 실패 확률을 1-f라고 나타낼 수 있다. 그러면 이처럼 공식같은 일반화 식이 완성된다. 

 

그리고 이제 n=6일때 6번 던졌을 때 성공할 횟수 k가 0에서 6일 각각의 확률을 구하고 이를 확률분포도로 나타내 본다.

 

이항분포로 나타내면 이와 같은 그래프 형태가 될 수 있다. 만약 엑셀에 이렇게 일반화된 공식에 맞춰서 수식을 입력해두면, n이나 k, 성공확률을 가변했을 때 각각의 확률이 바뀌고 그래프의 형태가 어떻게 달라지는지 쉽게 응용을 할 수 있다.

 

 

통계학 시험에서 허용된다는 그래핑 계산기를 이용해서 확률을 구하는 예제 동영상

 

이러한 이항확률변수 값을 일일이 수작업으로 계산하지 않고 손쉽게 계산기를 이용해서 풀어주는 방법도 있나보다. 하긴 현실에서 6개중 2개 이런것보단 훨씬 복잡한 경우를 다뤄야 할 테니.

 

이항분포에 대해서도 공부해 보았고, 다음 시간에는 베르누이 분포, 기하확률변수, 푸아송 분포 등을 이어서 학습해보겠다. 확률 변수에 대한 과정도 어느덧 끝이 보인다.

728x90

블로그의 정보

Tali's Mandarin

타리의 중국어 교실 ᕙ(•̀‸•́‶)ᕗ

활동하기