타리스만

연속형 확률변수의 확률밀도함수

지난 시간에는 이산형 확률변수가 가지는 각각의 값에 대한 확률들을 구하고 그것을 확률분포도와 확률분포함수로 나타내는 방법을 공부해보았다.

 

이번에는 연속형 확률변수의 확률분포도를 나타내고 확률밀도함수에 대한 개념을 살펴본다.

 

 

특정한 값을 가질 확률이 0이다?

확률변수 Y를 내일 비가 내리는 정확한 양 이라고 정의한다. 그렇다면 Y=2일 확률은 얼마일까? 내일 비가 2인치가 내릴 확률은?

 

대충 2인치 정도 라고 우리가 흔히 부르는 근사치가 아니라 정확하게 2인치, 1.9도 아니고 2.1도 아닌 딱 2인치. 1.999999도 아니고 2.000001도 아닌 딱 2인치를 말한다. 물 분자 한개도 더하지 않고 한개도 모자라지 않은 딱 2인치일 확률은?

 

그것은 제로에 가깝다고 볼 수 있다. 수 많은 양 중에서 분자 한개 단위로 딱 2인치가 될 경우는 정말정말 많은 경우의 수 중 1일 것이다. 현실에서는 지금 우리가 가정한 아주아주 정확한 2인치인지 여부를 정확하게 측정할 수 있는 도구조차 없다. 그래서 1/무한대 = 0에 가까운 확률인 것이다. 

 

 

 

확률밀도 함수의 정의

비가 올 확률을 나타내는 확률분포 그래프를 이산형으로 만든 뒤 점점 세분화하는 과정으로 살펴보자.

 

제일 왼쪽과 같이 총 7개의 확률변수 값을 정의하고 각각의 값을 가질 확률분포를 나타낸다. 이산형 확률변수의 이같은 확률분포 그래프를 확률질량함수라고 한다. 그다음 확률변수가 가지는 값을 세분화해서 두번째 그림과 같이 촘촘하게 쪼갤 수 있다. 확률의 총 합은 1이므로 이렇게 하면 전체적인 그래프의 높이는 낮아지게 될 것이다.

 

마지막으로 확률변수가 가질 수 있는 값을 무한한 연속적인 숫자로 쪼개면 오른쪽 그림처럼 쭉 이어지는 선으로 나타내어질 것이다. 이와 같은 그래프를 확률밀도함수라고 한다. (probability density function, pdf)

 

 

 

연속형 확률밀도함수의 확률계산

아까 딱 2인치의 비가 내릴 확률은 근사적으로 0이라고 했는데, 그래프를 보고 생각해보자.

 

이산형 확률분포도에서는 밑변X높이=확률이다. 연속형 확률분포도에서는 특정 확률을 찍으면 그 확률은 막대와 같은 선으로 나타낼 수 있다. 밑변의 길이라는게 존재하지 않고 (0) 높이만 존재하는 사각형인 셈이다. 따라서 면적이라는 것이 없어서 확률이 0이라고도 할 수 있다.

 

연속형 확률변수로 확률값을 구할때는 이산형처럼 특정값을 가질 확률은 얼마 하고 딱 떨어지지가 않는다. 특정값의 확률은 0이니... 그래서 이때는 얼마부터 얼마까지 구간의 값을 가질 확률로 싸잡아서 계산해주는 수밖에 없다.

 

내일 비가 딱 2인치가 내릴 확률은 근사값 0에 가까우므로, 내일 비가 1.9에서 2.1사이만큼 내릴 확률을 구해주어야 한다. 어떻게 구하느냐?

 

위와 같이 연속형 확률변수의 연속된 값에 따른 확률분포를 그래프로 나타내고, 그 밑면적을 적분하여 구한다. 비가 1.9에서 2.1사이만큼 내릴 확률은 확률밀도함수 f(x)를 x=1.9~2.1까지 구간으로 적분해주면 된다.

 

또한 확률의 총합은 1이어야 하므로 연속형 확률변수의 모든값에 대한 확률의 합도 1이다. 즉 위 그래프의 밑면적은 1이다. 

정확히 말하면 1이 되어야만 한다. 그래야 유효한 확률밀도함수라고 할 수 있는 것이니깐. 중요한 점은 가로축 X는 무한대의 값을 가질 수 있지만 그래도 적분하면 1이 되어야 한다는 이야기이다.


확률밀도함수 계산 예제문제

예제 문제를 통해서 연속형 랜덤변수의 확률구하는 계산을 해보자.

확률밀도함수가 위와같이 정의되어 있다고 한다. 일단은 이 확률밀도함수가 유효한 것인지를 검증해보자. 적분의 총합이 1이 되는지 보면된다.

 

일단 f(x)가 음수값을 가지지 않아야 하고 (확률밀도함수가 한순간도 0아래로 내려가는 일이 없어야 한다) 그리고 x값이 0에서 1로 정의되어 있으므로 f(x)를 0에서 1까지로 적분했을 때 1이 되는 것을 확인하였다. 즉 이 확률밀도함수는 유효하다고 볼 수 있다.

 

그러면, x가 1/2 에서 1사이의 값을 가질 확률은 얼마인가?

 

특정 구간을 적분해서 확률밀도함수의 밑면적을 구하면 그것이 확률이라고 하였다. 위와 같이 f(x)의 특정구간 적분을 통

해 간단하게 확률을 구할 수 있다. 여기서 제시한 f(x) 자체가 우상향하는 그래프이므로 x값은 반 정도의 구간이지만 밑면적은 7/8을 차지하게 됨을 알 수 있다.

 

그렇다면 x=1/2일 확률은 얼마일까?

 

위에서 개념을 설명할 때 특정 확률변수에 대한 확률값은 선 막대기로 나타내어지기 때문에 면적이 0일 것이라고 했는데, 이렇게 적분을 한다고 했을 때 1/2에서 1/2까지의 밑면적을 적분하게 되므로 값은 값을 빼서 결국 0이 된다. 이해하기 쉬운 방법으로 0이 되는 것을 납득하면 되겠다.


한가지 더 살펴보자.

이번에는 위와 같이 f(x) 확률밀도함수가 주어졌다고 했을 때, 이 확률밀도 함수는 0 < x < c 구간에서 유효하다. c가 어떤 값을 가져야 확률밀도함수가 유효하게 될지를 설정해보자.

 

전체 구간을 적분했을 때 1이 되도록 c를 설정해주면 위와 같이 간단하게 계산해낼 수 있다.


아래와 같은 문제도 풀어보자.

 

확률밀도함수 f(x)의 식이 주어진 건 아니지만, xy평면상에 그래프로 제시되어 있다. 확률은 1<x<5 구간에서만 존재하며 그 외의 영역에서는 0이다. 

 

이 때, P(x<4) =? 를 구하시오.

 

먼저 확률밀도 함수의 밑면적 전체적분을 해보면, x축은 (5-1)=4 y축은 0.25로 고정이므로 4*0.25=1이 됨을 알 수 있다. 따라서 이 확률밀도 함수는 유효하다.

 

x<4일때의 확률은 마찬가지로 위와같이 1<x<4 구간의 밑면적 적분값이므로 사각형 면적을 구해서 간단하게 도출해낼 수 있다.


다음은 위와같이 정규분포 곡선을 가지는 확률밀도함수가 주어졌을 경우이다. 중학생 키의 분포가 평균 150이고 표준편차가 20이라고 할 때, 임의로 고른 학생의 키 H가 170이 넘을 확률을 구하여라.

 

표준 정규분포는 향후에 다시 공부하겠지만,

 

여기에서 표준편차1 구간의 확률은 68.2%이다. 따라서 중간에 녹색 빗금으로 칠한 부분이 68.2%이고 그의 반은 19.1%이다. 150을 기준으로 왼쪽 반은 50%, 오른쪽에서 170 전까지가 19.1% 이므로 170 넘는 부분은 100-50-19.1=30.9% 임을 알 수 있다.

 

 

 

 

강의자료 출처

 

14.1 - Probability Density Functions | STAT 414

Enroll today at Penn State World Campus to earn an accredited degree or certificate in Statistics.

online.stat.psu.edu

 

다음 시간에는 확률밀도함수의 기댓값에 대해 살펴본다.

728x90

블로그의 정보

Tali's Mandarin

타리의 중국어 교실 ᕙ(•̀‸•́‶)ᕗ

활동하기