[정보이론] Cross entropy(교차 엔트로피)의 정의 및 의미

정보이론에서 Cross entropy (교차 엔트로피)는 굉장히 중요한 요소이다. 엔트로피를 정의함으로써 정보이론이 시작한다고 보면 된다. 정보이론에서 엔트로피는 어떤 분포 p를 따르는 정보가 있을 때 이 정보를 표현 할 수 있는 비트수를 뜻한다. 이번에는 분포 p와 q로 구성된 교차 엔트로피에 대해 알아보도록 하자.

Cross entropy(교차 엔트로피) 등장 배경

통신상황중에 송신중에 p를 이용하여 정보를 주고받는것을 하다가 p가 아닌 다른 분포를 이용해서 보내야 되는 경우도 더러 생기는 것 같다. 실제 분포는 p인데 특별한 이유로 인해서 q를 사용해서 통신을 해야 한다고 하자. 실제 분포는 p이지만 q를 이용할 때 차이점이 있을 것이다. 실제가 p이지만 q를 사용함으로써 생기는 불확실성을 정의하기 위하여 교차 엔트로피가 등장한다. 혹은 p를 q로 교체했을 때 생기는 불확실성을 의미하기도 한다.

Cross entropy(교차 엔트로피) 정의

분포를 의미하는 확률질량함수 $p$와 $q$가 있다고 하자. 이 때 교차 엔트로피 $H(p,q)$는 아래와 같이 정의한다.

$$ H(p,q) = -\sum_{x\in X} p(x) \log q(x)$$

여기서 $p$는 실제분포를 의미하고 $q$는 $p$를 모방한 분포라고 보면 된다.

이산인 경우에만 정의했는데 연속인 경우 $p$와 $q$는 확률밀도함수가 되겠고 p와 q의 교차 엔트로피는 다음과 같이 정의된다.

$$ H(p,q) = -\int_{X}p(x) \log q(x)dx$$


Leave a Comment