어떤 확률공간(probability space)를 분석하기 위해서는 random variable $X$의 성질을 보는 것으로 충분합니다. 기대값, 평균, 분산등을 구하는데 있어서 확률변수가 연속적이라면 확률 밀도 함수(probability density function, pdf)가 필요한데요. 이번 글에서는 확률 밀도 함수의 정의를 알아보고 의미와 쓰임새를 알아보도록 합시다.
확률 밀도 함수(pdf)의 정의
연속인 확률변수 $X$가 있다고 하자. $X$의 pdf $f_X(x)$는 다음을 만족하는 함수이다.
조건1. $f(x) \geq 0$
조건2. $P(X \in B) \int_{B} f_X (x) dx$
조건2의 의미를 들여달 필요가 있습니다. $B$가 $[-\infty, x]$라면 다음의 식이 성립함을 알 수 있습니다.
$$P(-\infty < X \leq x) = \int_{-\infty}{x} f_X(t) dt $$
그리고 이것을 미분하면
$$\frac{d}{dx}P(-\infty < X \leq x) = f_X(x)$$
미분의 정의를 이용하면 다음과 같은데요
$$f(x) = \lim_{dx \to 0} P(x < X <\leq x+dx) = int_{x}^{x+dx} f(t) dt$$
위의 식을 변형하면 다음과 같은 관계를 생각할 수 있죠.
$$P(x < X \leq x+dx) = f(x)dx \tag{1}\label{1}$$
위의 아주 조그만한 구간 dx에서의 확률을 f(x)와 dx의 곱으로 근사할 수 있다는 의미네요.
왜 밀도 함수인가?
\ref{1}를 살펴볼게요. 아주 조그만한 구간 dx를 길이라고 생각하면 f(x)의 단위는 확률/길이가 되겠네요. 밀도는 질량/부피 이듯이 f(x)는 확률/길이이므로 f(x)의 probability density function이라는 말이 붙은 것 같습니다.
pdf를 이용해서 기대값 구하기
pdf 를 이용하면 다음과 같은 기대값을 구할 수 있습니다. 단순히 적분으로 구할 수 있다는 것에 의의가 있죠.
$$E[h(X)] = \int_{-\infty}^{\infty} h(x) f_X(x) dx$$