[확률과 통계]분산(Variance)의 정의


확률과 통계에서는 확률 변수 X를 분석하는 일을 많이 한다. 확률 변수 X를 분석하기 위해 X와 관련된 여러가지 기대값(Expectation)을 구하기도 한다. 대표적인 기대값으로는 X를 대표할 만한 평균(mean)이 있다. 그리고 이번 글에서 알게 될 분산(Variance)가 있다. 이번 글에서는 확률 변수 X의 분산의 정의를 알아보고 분산의 의미를 알아보도록 하자.

 

분산이란?

확률변수 X의 평균 $m=E[X]$라고 하자. 그러면 확률변수 X의 분산은 다음과 같이 정의된다.

$$Var(X) = E[ (X-m) ^2 ] \tag{1}\label{1} $$

분산 구하는 방법?

X가 이산확률변수 일 경우 확률밀도함수(probability mass function) $p_X(x_i)$를 이용한다.

$$Var(X) = \sum_{i}(x_i – m)^2 p_X(x_i)$$

X가 연속확률변수 일 경우 확률질량함수(probability density function) $f_X(x)$를 이용한다.

$$Var(X) = \int_{-\infty}^{\infty}(x-m)^2 f_X(x) dx$$

분산의 의미?

분산이 무엇을 의미하는지를 보려면 (\ref{1})의 E 안쪽에 있는것이 무엇인지 파악해야 한다. $(X-m)^2$는 $X$와 $m$의 거리의 제곱이다. $X$가 $m$으로 부터 얼마나 떨어져 있는지를 나타낸다.  분산은 $(X-m)^2$에 기대값을 취한 것이므로 분산의 의미는 $X$가 평균 $m$으로부터 평균적으로 얼마나 떨어져 있는지를 의미한다.

 

 

Leave a Comment