타리스만

이산형 확률분포도 예제문제들과 유효성 검증

Frozen Yogurt를 파는 가게가 있다. 이곳에서 요거트 아이스크림을 사려고 오후 4시마다 갔을 때 대기자가 몇명이었는지를 매번 관찰했다. 총 50번의 관찰결과 대기줄은 아래와 같았다.

 

Line
Size
Times
Observed
Prob.
Estimate
0 24 24/50=48%
1 18 18/50=36%
2 8 8/50=16%

대기자가 한명도 없었던 경우가 24번, 대기자 1명이 있었던 경우가 18번, 대기자 2명이 있었던 경우가 8번이었다. 각각의 확률을 구해보면 총 관찰횟수가 50번이었으니 표와 같이 48%, 36%, 16%가 된다. 이 확률은 절대적인 진실이 아니라 나의 관찰값에 의해 추정된 (Estimated) 값이다.

 

하지만 이것은 타당한 값이다. 모든 확률은 0에서 1 사이의 값을 가지며 확률의 총합은 1이 된다. 여기서 추정된 확률이라고 썼지만 다시 말하면 이것은 실제 관찰에 의해 얻은 발생 빈도이므로 상대 도수 (relative frequency) 라고 할 수 있는 값이다. 뭐 결국은 같은 의미이다. 관찰로 얻은 상대도수 값을 앞으로 발생할 추정 확률로 생각하는 것이니.

 

여기에서 대기자의 수 (Line Size) 라는 것을 확률변수로 정의하고 확률변수가 가질 수 있는 값들에 대한 각각의 관찰결과를 통해 확률 추정치를 구하였다. X축에 각각의 확률변수에 대해 Y축에 해당되는 확률값을 그래프로 나타내면 그것이 확률분포표가 된다.


다음은 이산형 확률분포표가 타당한지 유효성에 대해 생각해보는 예제문제이다.

 

앤서니 디눈은 자신의 농구 플레이에 대한 분석 중이다. 표는 2회 던지는 자유투에 대해 성공확률을 나타낸다. 이 확률모델이 가능한 것인지 생각해 보자.

 

2회 모두 실패할 경우, 1회 성공할 경우, 2회 모두 성공할 경우로 나누어 각각의 확률을 표시하였다. 각각의 확률은 0에서 1 사이이며 음수값은 없다. 하지만 확률을 모두 더했을 때 0.8로 100%가 되지 않는다. 표에 나온 경우 외에 다른 경우의 수가 없다면 모든 확률의 합이 100%가 되어야 하는데 20%가 빈다. 

 

즉 이 확률모델은 타당하지 않은 어딘가 잘못된 것이라고 할 수 있다.


직접 가능한 확률모델을 만드는 예제 문제이다.

 

당신이 외계인인데 지구에 와서 닭 97마리 소 47마리 인간 77마리를 생산하였다. 그리고 임의로 하나를 고른다. 하나가 뽑힐 확률은 어떤 개체이든지 같다. 각각의 개체가 뽑힐 확률분포표를 만들어라.

 

Input your answers as fractions or as decimals rounded to the nearest hundredth.

답을 분수 또는 소수 둘째자리까지 반올림한 형태로 만드시오.

 

아주 간단한 문제다. 모든 개체를 다 더하면 221이므로 닭 소 인간이 뽑힐 확률은 각각 97/221 , 47/221 , 77/221이 된다. 이름 옆에 뽑힐 확률만 적어주면 그게 확률분포표가 된다. 전체 확률의 합은 1이고 각 확률은 0~1 구간의 값을 가지며 음수값이 없으므로 유효성있는 타당한 확률분포표라고 할 수 있다.


휴고는 카드팩을 사려고 한다. 총 4개의 카드팩을 살 돈을 가지고 있는데, 카드팩을 샀을 때 휴고가 원하는 카드가 나올 확률은 0.2이다. 원하는 카드를 뽑으면 그만사고, 원하는게 나오지 않으면 카드팩을 또 살 것이다. 휴고가 2개 이상의 카드팩을 살 확률을 구하라.

 

확률 변수 X를 휴고가 카드팩을 사는 개수로 정의한다. 확률변수 X는 1,2,3,4 의 값을 가질 수 있다. (최대 카드팩 4개까지 살 돈만 가지고 있으므로) 확률변수 X를 이용해 확률을 나타내면 

 

카드팩 1개를 살 확률 P(X=1)=0.2 가 되고 마찬가지로

P(X=2)

P(X=3)

P(X=4)

와 같이 나타낼 수 있다.

 

P(X=2) 는 일단 첫번째 카드팩에서 원하는 카드를 못 뽑은 뒤, 두번째 카드팩에서는 원하는 카드가 나왔다는 것이므로 0.8*0.2=0.16이 된다.

 

마찬가지로 P(X=3)은 두번째까지 원하는 카드를 못뽑고 세번째에 뽑은 것이므로 0.8*0.8*0.2=0.128이다.

 

P(X=4)는 이런 식으로 구하면 안된다. 왜냐면 원하는 카드를 뽑던 못뽑던 4번째가 마지막이 되기 때문이다. 돈이 카드팩 4번 뽑을 만큼만 있다고 했으니. 따라서 P(X=4) = {1- P(X=1) - P(X=2) - P(X=3)} 으로 1에서 나머지 확률을 빼준 값으로 구해야 한다. P(X=4)=1-0.2-0.16-0.128=0.512가 된다.

 

P(X=1)=0.2

P(X=2)=0.16

P(X=3)=0.128

P(X=4)=0.512

 

확률이 점점 줄어들다가 마지막에 높은 확률이 나오는 것도 언뜻 보기엔 이상한데 생각해보면 맞다. 왜냐면 X=1,2,3은 원하는 카드를 몇번째 도전에서 뽑을 확률인데 X=4는 4번째에 뽑을 확률이 아니라 그냥 3번째까지 못뽑을 확률이라는 의미이기 때문이다.

 

자 그럼 문제에서 카드팩을 2번이상 뽑을 확률은? P(X≥2) 로 나타낼 수 있고 이것은 P(X=2) + P(X=3) + P(X=4) 세가지 확률의 합과도 같다.

 

사실 문제가 이거라면 굳이 X=2,3,4일때의 확률을 구할 필요도 없었다. P(X≥2) 라는것은 곧 P(X=1)의 여집합, P(X=1) 이며 1-P(X=1) = 1-0.2 = 0.8로 직관적으로 간단하게 풀어낼 수 있다. 카드 2장이상 뽑을 확률은 1장 뽑을 확률의 여사건 확률이므로 그냥 0.2의 반대를 구하면 되는구나 라고 생각하는 것이다.

 

 

 

 

강의자료 출처

 

Random variables | Statistics and probability | Math | Khan Academy

Random variables can be any outcomes from some chance process, like how many heads will occur in a series of 20 flips. We calculate probabilities of random variables and calculate expected value for different types of random variables.

www.khanacademy.org

728x90

블로그의 정보

TALI's MANDALA

금융투자의 만다라를 찾아서

활동하기