타리스만

이항확률변수의 충족조건과 독립시행, 10%의 법칙

이항변수라고 알려져 있는 확률변수의 특수한 종류에 대해 알아보자. 

 

이항변수, Binomial Variables란

 

이산확률변수 discrete random variable의 한가지 종류이다. 고정된 숫자의 시도에서 (fixed number of treis or trials) 이벤트가 얼마나 자주 발생하는지의 빈도를 나타낸다. 이항확률변수는 다음과 같은 특수한 조건들을 만족시켜야 한다.

 

✔️ made up of independent trials

유한한 독립시행으로 구성

 

✔️ each trial can be classified as either success or failure

각각의 시도는 성공 또는 실패로 분류될 수 있다

 

✔️ fixed # of trials

시행 횟수가 고정

 

✔️ probability of success on each trial is constant

매 시도에서 성공확률은 불변

 

어떠한 확률변수가 이항변수에 해당되는지 예시를 통해 생각해보자.

 

확률변수 Y를 카드덱에서 2장을 뽑았을 때 킹카드가 나올 숫자라고 정의한다. 이것은 이항확률변수의 조건들을 만족할까? 먼저 각 시도는 킹을 뽑느냐 마느냐의 성공/실패로 구분할 수 있고, 시도는 딱 2번이니 고정된 숫자이다. 따라서 2번째 3번째 조건은 만족한다.

 

킹을 뽑을 확률은 첫번째 시도에서는 4/52인데, 두번째 시도에서는 앞에서 킹을 뽑았다면 3/51, 그렇지 않다면 4/51로 달라진다. 따라서 성공확률이 시도에 따라 달라지고 또한 두번째 시도가 첫번째 시도의 영향을 받게 되므로 매번의 시행이 독립적이지 않다.

 

첫번째 네번째 조건은 충족하지 못하므로 확률변수 Y는 이항변수가 아니라고 결론내릴 수 있다.

 

만약 여기서 매 시도마다 카드덱을 리셋한다고 가정하면 (without replacement 를 지우고 with replacement로 바꾸면) 매 시도마다 킹을 뽑을 확률이 4/52로 고정되고 또 각각의 시행은 서로 영향을 주지않는 독립이 되므로 이항변수의 조건을 모두 충족하게 됨을 알 수 있다.


이항변수 판단 예시문제

 

매니저가 11명의 여종업원과 9명의 남종업원을 감독하고 있다. 출장을 갈 3명의 직원을 뽑아야하는데, 모자에 이름을 넣고 임의로 하나를 뽑는다. 이 때 확률변수 X를 뽑힌 여종업원의 수 라고 정의한다. X는 이항변수일까?

 

보기A : 각 시도가 성공 혹은 실패로 구분되지 않는다 따라서 X는 이항변수가 아니다. (X)

→ 각 성공은 여종업원을 뽑는경우와 아닌경우 즉 성공 실패로 분리할 수 있다.

 

보기B : 고정된 시도가 없다 따라서 이항변수가 아니다. (X)

→ 3번의 고정된 시도를 한다.

 

보기C : 독립적이지 않다. 따라서 이항변수가 아니다. (O)

→ 앞선 시도에서 여종업원을 뽑았을 여부에 따라 뒤 시도의 성공확률이 달라진다. 독립적이지 않음

 

보기D : 이 상황은 모든 이항변수의 조건을 충족한다. 따라서 X는 이항분포 binomial distributuion 이다. (X)

독립성과 매시도 확률이 같을 조건 두가지를 충족하지 못하므로 이항분포가 아니다.


또다른 예시들을 가지고 판단해보자.

 

문제1 : 52장의 카드뎃에서 리셋없이 7장을 뽑을 때, Y=에이스가 나올 확률

→ 독립시행의 조건을 불충족

 

문제2 : 토마토 60%는 화분에서 밭에 옮겨심은 후 살아남는다. 16개의 토마토를 옮겨심었을 때 각 토마토는 서로 독립적이라고 가정하고 T=토마토가 살아난 숫자

→ 각 토마토 생존확률이 독립적이므로 이항변수의 조건들을 충족한다.

 

문제3 : 육면체 주사위 두개를 굴려서 같은 눈이 나올 때까지 굴린 숫자를 X라고 한다.

→ 매 시도는 독립적이지만 나올 때까지 계속해야 하므로 성공할 때까지 시도를 해야해서 횟수가 고정되어 있지 않다.


독립을 가정하는 10%의 법칙

 

현실에서 이러한 통계학을 활용하려고 할 때, 매 사건이 독립적이지 않은 경우가 많다.

 

예를 들면 쇼핑몰 나가는 출구에서 고객들에 대해 설문조사를 한다고 하자. 설문조사를 한 고객은 나가서 다시 들어오지 않으므로, 매 사건이 독립적이지 않다.

 

이러한 경우 꼭 독립적이어야 할 필요가 있을까? 독립에 가까운 근사치가 나오면 되는것 아닌가? 해서 적용하는 것이 10%의 법칙이다.

 

① 10%의 법칙 : 표본 (sample)이 모집단 (population)의 10% 이하라면 근사 독립으로 가정해도 좋다. 근사 독립이 어떤 경계에서 나타나는지를 증명하는 여러 방법이 있지만 대체적으로 10% 어림수로 잡는것은 꽤 유의미하다.

 

② 확률변수 X = 한 반에 남자 여자 50% : 50% 비율로 있을 때, 3번의 시행으로 뽑은 남자들의 수 라고 하자.

 

이 때 매번 뽑을 때마다  리셋 (replacement) 하는 경우와 ④ 그렇지 않는 경우 즉 독립적인 경우와 독립적이지 않은 경우로 나누어 생각해본다. 또한 각각의 경우에 한 반의 학생이 20명, 30명, 100명, 10000명인 경우로 나누어 확률변수 X의 값을 살펴본다.

 

값을 보면 ③ 독립 시행인 경우 이항변수의 조건을 충족하며 모집단의 숫자가 얼마이든 X=3 일 확률은 항상 일정하다. 반면에 ④ 독립 시행이 아닌 경우 앞선 결과에 따라 달라지기 때문에 P(X=3) 이 모집단의 숫자에 따라 변한다.

 

⑤ 그런데 자세히 보면 모집단을 10000명까지 늘려가는 경우 점점 이항분포에서 독립시행으로 얻는 확률에 가까워짐을 알 수 있다. 리셋 하던 안하던 전체 모수가 크니까 (=상대적으로 표본이 작으니까) 별로 상관이 없어지는 것이다.

 

⑥ 그래서 보통 독립시행에 얼추 가까워지는 수준으로 표본/모집단=10% 정도를 설정해서 생각하는 것이다.

 

※ 이것이 표본이 작은게 좋다는걸 의미하는 것은 절대 아니다. 표본이 큰 것이 전체 모집단을 더 정확하게 대변하는 여러 장점도 있고 또 단점도 있는 것이다. 말하고자 하는것은 표본 작은게 좋다 나쁘다가 아니라, 표본이 작을 경우 근사 독립을 가정하는 것이 가능하다는 점에 유의하자.

728x90

블로그의 정보

TALI's MANDALA

금융투자의 만다라를 찾아서

활동하기