타리스만

이산형 확률변수의 평균 (기댓값), 분산, 표준편차

확률변수 X를 다음과 같이 정의한다.

 

X = # of workouts in a week

X는 일주일에 운동하는 횟수

 

확률변수 X를 확률분포도로 만들면 다음과 같다.

 

X P(X)
0 0.1
1 0.15
2 0.4
3 0.25
4 0.1

 

일주일에 운동을 하나도 안할 확률이 0.1 / 1회 할 확률이 0.15 .... 4회 할 확률이 0.1 이런 식으로 표시하였고 확률의 총합은 1이고 음수가 없으니 타당한 확률분포도이다.

 

이 확률변수 X가 가질 수 있는 기대값을 E(X)라고 하고 μx 로 표시한다. X 즉 일주일에 운동을 몇회 할지 예상되는 기댓값을 구해보자.

 

 

 

기댓값 (평균)

expected value of random variable (mean)

확률분포도에 있는 X의 값과 각각의 확률을 가중치로 해서 곱해준다.

probability-weighted sum

 

E(X) = μx = 0*0.1 + 1*0.15 + 2*0.4 + 3*0.25 + 4*0.1

= 0 + 0.15 + 0.8 + 0.75 + 0.4

= 2.1

 

이라는 X의 기댓값을 구할 수 있다. 일주일에 운동을 1~4회 하는 각각의 확률을 구하고 그걸 이용해서 가장 높은 확률로 평균적으로 몇 회 운동을 할 것인가를 구하였다.

 

이 때 2.1회라는 값이 나왔는데 운동을 0.1회 한다는 것은 있을 수 없다. 이것은 기대되는 평균적인 값을 구했기 때문에 생긴 소수점이고, 기간을 10주로 늘리면 21회, 100주로 늘리면 210회 언저리의 운동을 할 것으로 예상된다는 뜻이다. 반복 횟수가 많아질수록 기댓값에 근접한 실제 결과값을 얻게 된다.


단순히 원판을 돌렸을 때 나올 수 있는 숫자의 기댓값을 구하는 문제이다.

1*(1/2) + 2*(1/4) + 3*(1/4) = 7/4 = 1.75

한 차례에 평균적으로 말은 1.75칸 움직일 것으로 기대할 수 있다.

 

 

 

문제 2: 농구 전략
농구 선수 케일라는 2점 슛의 50%를, 3점 슛의 20%를 성공합니다.


문제 A
케일라가 던지는 2점 슛의 기댓값을 구하세요.
소수 둘째 자리에서 반올림하여 나타내세요.

→ 2*0.5 = 1점

2점슛을 던졌을 때 평균적으로 1점을 획득하게 될 것으로 기대할 수 있다.

 

문제 B

케일라가 던지는 3점 슛의 기댓값을 구하세요.
소수 둘째 자리에서 반올림하여 나타내세요.

→ 3*0.2 = 0.6점

3점슛을 던졌을 때 평균적으로 0.6점을 획득하게 될 것으로 기대할 수 있다.


분산과 표준편차

variance & standard deviation

 

위에서 확률변수 X = 일주일에 운동하는 횟수를 정의하고 기댓값(평균)을 구하였다. 이제 좀 더 확장해서 확률변수 X의 산포도를 (spread)구해보자. 평균에 비해 개별값들이 얼마나 넓게 분포되어 있는지, 아니면 평균에 가깝게 집중되어 있는지를 나타내는 중요한 지표이다.

 

똑같이 평균이 100이더라도, 98 99 100 101 102 이 그룹과 80 90 100 110 120 이 그룹은 개별치의 분포가 다르다. 평균값만 구해서는 차이를 나타낼 수 없어서 산포를 의미하는 추가적인 지표가 필요해진다.

 

먼저 분산(variance)는 평균과 개별값의 차이에 제곱을 한 후 확률 가중치를 부여하여 다음과 같이 계산한다.

 

V(X) = (0-2.1)²*0.1 + (1-2.1)²*0.15 + (2-2.1)²*0.4 + (3-2.1)²*0.25 + (4-2.1)²*0.1 = 1.19

 

여기서 왜 제곱을 하고 확률값도 하나씩 곱해주었을까? 분산도 일종의 평균 개념이다. 평균값 E는 모든 값을 더하고 개수로 나눈 것이다. 그리고 그 평균값과 개별값의 차이가 편차이다. (X1-E , X2-E....) 이 편차의 평균을 구하려면 역시 다 더해서 개수로 나누어 주면 된다.

 

그런데 이 때 문제가 발생한다. 편차가 -10 -5 0 5 10 이렇게 5개라면 평균을 구하면 0이 되어버릴수 있다. 개별값이 평균에 비해 얼마나 퍼져있는지를 나타내려고 했는데 평균을 구하다보니 0이 되는 것이다. 그래서, 각 편차의 제곱을 해서 평균을 구하고 이를 분산이라고 한다.

 

분산은 절대값만 나타내도록 제곱하였기 때문에 양수만 가지게 되고 평균에 비해 떨어져 있는 정도를 나타낼 수 있게 되었다. 하지만 제곱을 해서 값이 뻥튀기 된 단점이 있다. 그래서 분산에 제곱근을 구해 (square root) 표준편차라고 한다. 분산은 평균편차인 셈이고, 스케일을 줄인것이 표준편차인 셈이다.

 

σx = √1.19 ≒ 1.09

 

이것을 확률분포도에 나타내면 위와 같이 2.1 부분에 평균을 표시하고, 표준편차 1.09만큼 벌어져 있다고 시각적으로 표현할 수 있다.

 

이게 왜 중요하냐면 나중에 나올 정규분포에서 이 표준편차를 이용해 평균±σ 범위에 전체 데이터의 68%가 포함, 평균±2σ 범위에 전체 데이터의 95%가 포함, 평균±3σ 범위에 전체 데이터의 99%가 포함된다와 같이 나타낼 수 있기 때문이다.

 

확률의 분포도를 구하고, 그것의 평균과 표준편차를 도출한 후에, 분포도에서 표준편차를 이용해 데이터가 포함될 구간을 지정하고, 이것을 통해 신뢰구간을 판정하는 식으로 확률통계의 가지가 뻗어나가는 것이다. 다음에 계속...

728x90

블로그의 정보

Tali's Mandarin

타리의 중국어 교실 ᕙ(•̀‸•́‶)ᕗ

활동하기