타리스만

확률변수의 변환과 합치기 : 평균 분산 표준편차

이번 시간에는 확률변수에 상수를 더하거나 곱했을 때, 또는 확률변수끼리 합쳤을 때 생기는 변화와 계산방법에 대해 공부해본다.

 

 

 

확률변수에 상수의 합과 곱

 

확률변수 X를 정의하고 이 때 평균과 표준편차를 μx σx라고 하자. 확률변수 Y는 X에 k를 더한 값이다. 즉 X가 가지는 모든 확률변수 값을 k만큼 증가시켰다는 의미이다.

 

이 Y=X+k 에 대한 확률밀도함수는 그림에서 1과 같이 X의 확률밀도함수가 오른쪽으로 그대로 k만큼 이동한 모양이다. 평균이 k만큼 이동하였지만 평균에서 얼마나 퍼져있는지 산포를 나타내는 표준편차는 변하지 않았다. 

 

확률변수에 상수k를 더할 때,

Y=X+k

μy=μx+k

σy=σx

 

확률변수에 상수k를 곱하는 경우에는 어떻게 될까?

 

Z=kX 라고 하면 새로운 확률변수 Z는 X의 모든 확률변수 값에 k배만큼 해준다는 뜻이다. 즉 원래 1,2,3,4,5 였던것이 1k, 2k, 3k, 4k, 5k 로 벌어지게 된다. (k<1 일 경우에는 반대로 좁혀지고)

 

이 때의 확률밀도 함수는 그림에서 2와 같이 원래의 확률밀도 함수가 오른쪽으로 이동하면서 동시에 호떡처럼 눌러서 납작하게 퍼진 모양을 갖는다. 확률변수의 범위가 늘어났기 때문에 그만큼 각각에 대한 확률은 감소해야 밑면적 총합1은 유지되는 것이다.

 

상수k를 곱하는 경우에는 평균도 k배만큼 이동하고 그래프가 퍼져서 산포도도 증가했으므로 표준편차도 k배만큼 증가하게 된다.

 

확률변수에 상수k를 곱할 때,

Z=kX

μy=kμx

σy=kσx

 

 

 

확률변수 합치기 합과 곱

 

이번에는 두 가지 확률변수를 합하고 빼는 경우를 생각해보자.

 

먼저 산책할 때 만나게 되는 강아지 숫자를 X라고 하고 고양이 숫자를 Y라고 한다. 평균적으로 얻을 수 있는 기댓값이 강아지는 3마리, 고양이는 4마리라고 할 때, 두 확률변수의 합과 곱은 어떻게 될까

 

강아지를 만나는 것과 고양이를 만나는 것이 서로 상관없는 일이라면, 만나게 되는 강아지와 고양이의 총합은 3+$=7이 될 것이다. 만나게 되는 고양이 수에서 강아지 수를 빼는 경우에도 마찬가지로 기댓값 평균의 차로 4-3=1일 것으로 생각할 수 있다.

 

 

 

확률변수를 합칠 때 분산과 표준편차

매티스 씨리얼 박스에 들은 무게를 X라고 하고 그릇에 담은 씨리얼의 무게를 Y라고 한다. 이 때 X,Y가 가질 수 있는 범위와 기댓값 평균과 표준편차를 다음과 같다고 한다.

 

E(X)=16

σx=0.8 

15≤X≤17

 

E(Y)=4

σy=0.6 

3≤Y≤5

 

박스에는 평균적으로 16, 그릇에는 4의 무게가 담기고 담는 사람에 따라 편차가 있을테니 그 표준편차를 각각 0.8 0.6으로 정의하였다. 또 박스에 15~17을 벗어났을 경우 그릇에 3~5를 벗어났을 경우는 불합격으로 사용하지 않기로 한다.

 

이 때 박스와 그릇에 담긴 무게의 합은? 앞선 예제에서도 살펴봤듯이 평균은 그냥 더하면 된다.

E(X+Y) = E(X) + E(Y) = 16 + 4 = 20

 

그렇다면 표준편차는 어떻게 될까? 직관적으로 생각해봐도 같지는 않을 것이다. 원래 X가 가질 수 있는 값의 범위는 2, Y도 2이다. 하지만 X+Y를 하면 18~22까지의 값을 가질 수 있고 범위가 4로 늘어난다. 당연히 퍼져있는 정도를 나타내는 표준편차도 증가할 것이다.

 

중요한 사실 또 한가지는 X-Y를 하는 경우에도 가질 수 있는 확률변수가 10~14로 범위가 4로 늘어난다는 점이다. 즉, 산포도는 두 확률변수를 합하던지 빼던지 똑같이 증가한다. 확률변수를 합치는 것이 곧 산포도를 늘리는 행위임을 알 수 있다.

 

합쳐진 확률변수의 표준편차는 직접 계산할 수 없고 분산을 더하는 방법으로 계산할 수 있다. 각 편차제곱을 평균한 것이 분산이므로 두 확률변수를 합할 때 분산도 합해주면 된다.

 

표준편차의 제곱이 분산이므로 σ²(X±Y) = σ²(X) + σ²(Y) = 0.8² + 0.6² = 0.64 + 0.36 = 1

 

즉 위 경우에 X,Y 확률변수를 합치면 분산이 1로 증가하고 제곱근인 표준편차 역시 1로 늘어난다. 식에서 X±Y라고 표시했는데 확률변수 X+Y를 하던 X-Y를 하던 분산의 증가는 우측식과 같이 동일하게 일어나기 때문이다.

 

 

 

분산의 합에 독립성이 조건인 이유

 

확률변수 X를 잠자는 시간, Y를 깨어있는 시간이라고 하자. 이러면 X+Y=24로 한가지 값이 다른 확률변수의 값에 영향을 미친다. 즉 독립적이지 않은 경우이다.

 

X, Y의 분산과 표준편차를 각각 다음과 같이 정의하고,

 

Var(X)=4

σ(X)=2

Var(Y)=4

σ(Y)=2

 

이때 X+Y의 분산, Var(X+Y)는 위에서 했던 계산처럼 두 분산의 합인 8이 될까? 정답은 No 이다.

 

왜냐하면 X+Y=24로 고정되어 있기 때문에 X+Y의 값은 전혀 변동성이 없이 항상 일정한 값을 가진다. 편차가 제로, Var(X+Y)=0이다. 쉬운 예시를 통해 이렇게 직관적으로 생각해 봄으로써 두 확률변수가 합쳐질 때 분산을 더하는 방식은 독립성이라는 조건이 전제됨을 알 수 있다.

 

 

 

 

확률변수 차의 분산은 왜 합과 같을까

앞서 확률변수 합 X+Y의 분산은 확률변수의 차 X-Y의 분산과 같은 값이라고 하였는데, 여기서는 그것을 수식적으로 생각해본다.

 

확률변수 X, Y를 정의하고 Z=X+Y , A=X-Y라 하자.

 

X의 기댓값 E(X)=μx

Y의 기댓값 E(Y)=μy

 

로 각각의 평균값과 같다. 이 때 분산은

 

Var(X)=E{(X-μx)²}=σ²x

Var(Y)=E{(Y-μy)²}=σ²y

 

분산은 각 개별치에서 평균과의 차이값을 제곱한 값의 다시 평균값, 즉 차이제곱의 평균으로 나타내고 이는 표준편차의 제곱이다.

 

이제 확률변수를 합과 차를 해보자.

 

E(Z)=E(X+Y)=E(X)+E(Y)=μx+μy

E(A)=E(X-Y)=E(X)-E(Y)=μx-μy

 

합과 차를 해서 새롭게 만들어진 확률변수 Z와 A의 기댓값은 원래 확률변수 평균을 그대로 더하고 뺀 것과도 같다. 그러면 분산은 어떻게 될까

 

먼저 합의 경우 분산은 두 분산의 합과 같다고 하였다.

Var(Z)=Var(X)+Var(Y)=σ²x+σ²y

 

결론부터 말하면 확률변수의 차에서도 분산은 이렇게 똑같은데 왜 그런지 살펴보자.

 

Var(A)=σ²(x-y)=σ²x+σ²(-y)

 

일단 확률변수 A=X-Y의 분산을 X와 -Y 분산의 합으로 나타낼 수 있다. 여기서 -Y의 분산, σ²(-y)에 대해 다시 살펴보면

 

σ²(-y)=Var(-Y)=E{(-Y-E(-Y))²}=E{(-1)²(Y+E(-Y))²}=E{(Y+E(-Y))²}=E{(Y-E(Y))²}=E{(Y-μy)²}=σ²y

 

길게 풀었는데 결국은 Y의 분산과 -Y의 분산은 같다는 이야기이다. 직관적으로 생각해보면 당연하다. 확률변수 Y의 확률밀도함수가 있는데 이것에 -를 곱하면 X=0인 Y축을 기준으로 좌우대칭이 될 것이다. 전체 값만 음수가 된 것이지 평균에서 퍼져있는 정도, 평균과의 차이제곱의 평균인 분산은 변하지 않는다.

 

따라서 σ²(-y)=σ²y 이고, 이를통해 σ²(x-y)=σ²x+σ²(-y)=σ²x+σ²y가 되어 확률변수 합일때의 분산과 확률변수 차일때의 분산이 같음을 알 수 있다.

 

 

 

강의자료 출처

www.khanacademy.org/math/statistics-probability/random-variables-stats-library

728x90

블로그의 정보

Tali's Mandarin

타리의 중국어 교실 ᕙ(•̀‸•́‶)ᕗ

활동하기