타리스만

이산형, 연속형 확률변수의 차이와 확률분포

지난 시간까지 조건부 확률 ▷ 전체 확률의 법칙 베이즈 정리로 이어지는 확률통계의 기초 부분을 공부하였고, 쉬어가는 코너로 몬티홀 문제의 정답해설을 정리해보았다.

 

 

확률이란? 확률모형과 사건, 표본공간의 정의 예일대 강의자료

확률 모형이란 어떠한 무작위 현상에 대한 수학적 표현이다. 결과가 확률에 의해 매번 달라지는 실험을 의미한다. 영어 표기로는 probability model 이므로 확률 모델이라고 말해도 같은 뜻이다. 확

tali.tistory.com

 

조건부 확률과 교집합(곱사건) 개념의 차이는 표본공간 (+예시문제)

조건부 확률이란? (Conditional Probability) 사건 (event) B의 조건부 확률이란 사건 A가 이미 발생했음을 알고있는 경우의 확률이다. P(B|A) 로 나타내며, A가 주어졌을 때의 (given A) B를 나타내는 표기법이

tali.tistory.com

 

전체확률의 법칙과 베이즈 정리로 코로나 조건부확률 계산

전체 확률의 법칙 베이즈 정리 유도에 앞서 조건부 확률의 수식을 이용해서 전체 확률의 법칙 (law law of total probability) 또는 전확률 정리라 부르는 형태로 나타낼 수 있다. 베이즈 정리로 가기위

tali.tistory.com

 

이제 본격적으로 확률변수에 대한 개념으로 넘어가는 시간이다.

 

 

확률 변수란?

Random Variable, 확률 변수는 Random Process에 의해 발생하는 outcomes를 numbers로 나타낸 것이다. 랜덤 프로세스는 말그대로 불규칙한 무작위 환경하게 행해지는 실험이다. 동전을 던저 앞면 또는 뒷면이 나오는 것, 주사위를 던져 1에서 6까지의 눈금 중 하나가 나오는 것 등이다.

 

랜덤 프로세스의 결과를 확률변수를 통해 수치적으로 정의하는 과정을 간단한 예시를 통해 살펴보자.

 

먼저 동전 던지기를 한다고 하면 나올 수 있는 경우의 수를 (앞면) (뒷면) 이렇게 표현할 수 있다. 여기서 확률 변수 X를 정의하고 이 동전던지기의 결과를 수치적으로 치환해준다. 위 스샷과 같이 앞면이 나오면 (if heads) X=1 , 뒷면이 나오면 (if tails) X=0 이라고 정의할 수 있다.

 

(잠시 딴소리를 하자면 어릴때부터 동전의 뭐가 앞면이고 뭐가 뒷면인지가 항상 궁금했는데 사람 얼굴을 보통 앞면이라 하고 다른 문양이 있는쪽을 보통 뒷면이라고 부른다. heads and tails의 유래에 대해선 아래 링크를 참조)

 

 

The History of the Coin Flip – Heads or Tails? - Hattons of London

A coin flip can settle almost anything, no matter how big, or how small. But what is the true meaning of it and what is its significance throughout history? We're looking back at some of the most historic uses and events settled by a coin flip.

hattonsoflondon.co.uk

 

그럼 이제 동전던지기의 결과는 앞면 뒷면이 아닌, 1 또는 0으로 나타낼 수 있게 수치적으로 바뀐 것이다. 이렇게 해주는 치환자를 확률변수라고 한다. 그럼 대체 이 확률 변수를 왜 사용하는 것일까? 그냥 앞면 뒷면 하면되지 굳이 뭐하러 수치로 나타내주는 걸까?

 

다른 예제를 통해 생각해보자.

 

이번에는 7개의 주사위를 던져서 나오는 윗면의 합을 구한다고 가정한다. 확률변수 Y를 새로 정의하고 Y=7개 주사위 던졌을때 윗부분의 총합 이라고 한다. 이를 통해 구하고자 하는 확률을 간단하게 표현할 수 있게 되었다.

 

7개 주사위를 던졌을 때 윗면의 총합이 30이하일 확률은 얼마?

 

원래대로라면 주사위 7개를 던졌을 때 나올 수 있는 모든 경우의 수를 (표본공간) 다 나열한 다음, 총합이 30 이하가 되는 경우들만 (사건) 몇개인지 세서 사건개수/표본공간으로 확률을 구해야 한다. 그런데 확률변수 Y를 정의해놓은 덕분에 그냥 P(Y≤30)=? 이렇게 쓰면 되는 것이다. 

 

정말 편하고 간단해지지 않았는가? 7개 주사위를 던졌을때 윗부분의 총합이 짝수일 확률은 P(Y=even) 으로 나타낼 수도 있다. 어떠한 랜덤행위에서 알고싶은 조건에 대한 확률을 확률 변수를 통해 간단하게 정의할 수 있게 되는 것이다.

 

참고로 방정식 같은데서 x+5=6 이렇게 나타내는 x는 답을 1만 가지는 변수로서 확률변수라고 부를 수 없다. y=x+7과 같이 두가지 변수가 서로 의존적으로 변화하는 값을 가지는 경우도 마찬가지다. 확률 변수는 처음에 말했듯이 랜덤 프로세스에 일어나는 결과를 수치적으로 표현한 값이어야만 한다.

 

 

연속형vs이산형 확률변수

이러한 확률변수는 연속형과 이산형, continous & discrete 두가지로 나타낼 수 있다. 이 부분은 그리 어렵지 않다. 연속형 확률변수는 말그대로 확률 변수가 가질 수 있는 값이 어떠한 범위 속에서 무한하게 연속적이라는 뜻이고, 이산형 확률변수는 1,2,3,4 처럼 딱딱 떨어지는 기준이 있어서 몇 개라고 정의할 수 있는 것이다.

 

예시들을 보면 저절로 감을 익힐 수 있다.

 

확률변수 X = 동전 던졌을 때 앞면이면 1, 뒷면이면 0

→ 가질 수 있는 값이 0 또는 1로 두가지밖에 없으므로 이산형 확률변수

 

확률변수 X = 어떠한 학생 하나를 골랐을 때 그 학생이 태어난 연도

→ 연도는 1985 1992 2001 처럼 특정 숫자를 가지기 때문에 이 확률변수가 가질 수 있는 값의 범위는 유한하며 이것을 이산형 확률변수라 한다.

 

확률변수 Y = 내일 전 우주에서 태어날 개미의 숫자

→ 엄청나게 많은 숫자이지만 몇 마리 라고 딱 떨어지는 숫자로 어떻게든 나타낼 수 있기 때문에 이또한 이산형 확률변수에 속한다.

 

확률변수 Y = 동물원에서 무작위로 선택된 동물의 몸무게

→ 동물원에서 아무 하나를 골라서 잰 몸무게는 개미일 경우 0.001kg일 수도 있고 코끼리라면 5000kg일수도 있을 것이다. 그 사이에 무수히 많은 값 중 하나를 같게 되며 나올 수 있는 숫자는 범위안해서 무한하다. 이를 연속형 확률변수라 한다.

 

확률변수 X = 2016 올림픽 달리기 우승기록

→ 달리기 우승기록이 시계로 기록된 9.56초 같은 숫자가 아니라 실제 시간을 말할 경우 실제의 시간은 9.5615335초 일수도 있고 9.5604929375548954823798초 일수도 있다. 정확하기 딱잘라 말할 수 없는 이런값을 가지는 경우 연속형 확률변수라 한다.

→ 만약 이 경우 소수점 두째자리로 나타낸 우승기록, 이라고 조건을 단다면 이 때는 딱 떨어지는 숫자들 중에서 나타낼 수 있으므로 이산형 확률변수가 될 것이다.

 

강의자료 말고 개인적인 예시를 하나 추가하자면 이런것도 있다.

스펙트럼으로 나타내는 무지개의 색깔 : 연속형

빨주노초파남보 중에서 하나로 나타내는 무지개의 색깔 : 이산형

→ 빨주노초파남보 7색은 인간이 편의를 위해 나눈 기준이지 실제 색깔은 그 사이 구간에서 연속적으로 아주 자잘한 단위로 미세하게 계속 변한다. 즉 실제로는 연속형이나 어떠한 기준에 의해 이산형으로 나타낸 것.

 

 

 

확률분포

이렇게 확률변수를 정의했다면 이를 통해 확률 분포로 (Probability Disribution) 나타낼 수 있다. 먼저 확률변수 X를 동전을 3번 던졌을 때 앞면이 나오는 숫자 라고 정의하겠다.

 

앞면 (Heads, H) 뒷면 (Tails, T)이 나올 수 있는 경우를 모두 써보면 다음과 같다.

TTT HTT THT TTH HHT HTH THH HHH 

 

앞면이 나오는 숫자별로 확률을 나타내면, 앞면이 0번 나올 확률은 P(X=0) 으로 표현할 수 있다.

P(X=0) = 1/8

P(X=1) = 3/8

P(X=2) = 3/8

P(X=3) = 1/8

동전 3번 던졌을 때 앞면이 나오는 횟수 0~3번 각각에 대한 확률을 위와 같이 확률변수를 이용해 간단하게 표시하였다.

 

이렇게 확률변수가 가질 수 있는 값들에 대한 확률을 구하고, 이것을 그래프에 나타내면 확률분포가 된다. 위 그림과 같이 X축에 확률변수 X가 가지는 값들, 즉 0에서 3까지를 써주고 Y축에는 각각에 대한 확률 P값을 표시해 준다.

 

확률 변수를 정의한 덕분에 확률 변수의 값들에 대한 확률값을 구하고 확률 분포로 나타내어 시각적으로 알아보기 쉬운 형태로 도식화가 가능해졌다. 나타낸 확률분포를 다시 함수로 정의하면 확률분포 함수가 되고, 이런 식으로 점점 수학적으로 사용하기 편리하게 가공할 수 있게 된다.

 

맛있는 닭고기가 있다고 생닭을 그대로 먹을 순 없다. 가공을 한 후에 요리를 해먹어야 한다. 털을 뽑고 내장을 빼내고 세척하여 재료를 요리할 수 있는 상태로 만드는 것이 확률변수의 역할과도 같다고 할 수 있겠다. 이제 확률 변수를 통해 준비된 식재료를 마음껏 요리해보자.

 

음에 계속...

 

 

 

강의자료 출처 : Khan Academy

 

 

Random variables | Statistics and probability | Math | Khan Academy

Random variables can be any outcomes from some chance process, like how many heads will occur in a series of 20 flips. We calculate probabilities of random variables and calculate expected value for different types of random variables.

www.khanacademy.org

728x90

블로그의 정보

TALI's MANDALA

금융투자의 만다라를 찾아서

활동하기