카이 제곱 검정(chi square testing) 방법과 의미


통계문제에서 한 변수가 다른 변수와 통계적으로 의미가 있는지 없는지를 테스트하는 방법 중 하나로 카이 제곱 검정(chi square test)가 있다. 카이 제곱 분포를 사용하기 때문에 이와 같은 이름이 붙었다. 사실 카이 제곱 검정은 변수간의 관계 뿐만 아니라 어느 분포에 있는지 판단하기위해 쓰기도 하지만 이 글에서는 변수간에 통계적 의미가 존재하는지를 파악하는 방법에 대해서만 얘기해보겠다.

카이 제곱 검정 어떨때 쓰나?

데이터가 있을 때 변수 X를 이용해 분류했다고 가정하자. (예를 들어 X는 흡연, 비흡연자 표시)

X를 이용해 분류가 되어있는 데이터에서 Y를 이용해 분류한다고 가정하자.(예를 들어 Y는 여자, 남자를 표시)

X를 이용해서 분류했고 여기에 더해서 X,Y를 이용해 분류를 하면 X만을 이용해서 한 분류보다 X,Y를 이용해 분류한 것이 더 세밀하고 정확하길 바란다. 또한 X에 Y가 추가적으로 사용되었을 때 분류하는 기준이 통계적으로 기준이 있길 바란다.(혹은 분류하는데 있어서 유의미한 정보를 준다.)

위와 같은 상황에서 X,Y가 통계적으로 유의미하게 관계 있는 변수인지 알아 볼 수 있는 것이 바로 카이 제곱 검정이다.

카이 제곱 검정시 가정

카이 제곱 검정을 사용할 때는 다음과 같은 가정이 있다. 이것을 귀무가설(null hypothesis)과 대립가설(alternative hypothesis)을 이용해 표현해보겠다.

귀무가설 $H_0$ : X와 Y가 통계적으로 연관이 없다.

대립가설 $H_1$ : X와 Y가 통계적으로 연관이 있다.

카이 제곱 검정 순서 설명

1. X가 가질 값들을 $c_1,…,c_m$이라 하자. Y가 가질 값들을 $a_1,…,a_l$라고 하자. 현재 주어진 데이터의 총 수는 $N$이라 하자.

2. 주어진 데이터 중 $X=c_i$인 데이터의 갯수를 $M_i$라고 표현하자.

3. Y값 $a_j$를 이용해 분류를 한다고 가정하자.

$N_{ij}$는 $X=c_i, Y=a_j$인 데이터의 총갯수라고 하자.

$N_j=\sum_{i}N_{ij}$라 하자.

$N_j$는 전체 데이터 중 $Y=a_j$인 데이터의 총갯수를 의미하고 $N_{ij}$는 방금 언급한 $N_j$개의 데이터 중 $X=c_i$인 데이터를 의미한다.

4. 전체 데이터 중 $Y=a_j$인 데이터의 비율은 $\frac{N_j}{N}$임을 알 수 있다. 이 비율을 사용하면 $X=c_i, Y=a_i$인 데이터 개수의 기대값으로 $N_{ij}^-= M_i \frac{N_j}{N}$ 를 구한다.

5. $N_{ij}^-$의 의미는 $X,Y$의 분포를 동시에 사용한 것이라 보기 힘들고 오로지 $Y$값의 따른 비율 분포를 이용해 구한 값이다.

6. $X,Y$를 이용해서 구한 값인 $N_{ij}$와 $Y$만을 이용해 구한 $N_{ij}^-$의 차이 $N_{ij}-N_{ij}^-$를 고려할 때 $N_{ij}-N_{ij}^-$가 0이라면, $X,Y$ 두가지 변수를 사용해 분류한것과 $Y$만을 이용해 분류한것이 동일하다는 것이다. 이 말은 $X,Y$를 이용할 때와 $Y$만을 이용할 때 효과가 같다는 의미로 $X$와 $Y$를 동시에 쓸 때 별 효능이 없다는 얘기이다.(X,Y가 통계적으로 유의미한 연관이 없다)

7. $N_{ij}$와 $N_{ij}^-$의 거리를 재기 위해 다음과 같이 값을 구하고 카이제곱으로 표시를 한다.

$$\chi^2 = \sum_{i,j} \frac{ (N_{ij}-N_{ij}^-)^2}{N_{ij}^-}$$

8. 6에서 설명한것과 비슷한 센스로 $chi^2$가 작을수록 $X,Y$는 통계적으로 유의미한 관계가 없다.(귀무가설을 지지)  혹은 클 수록 통계적으로 유의미한 관계가 있다. (대립가설을 지지)

9. 위에서 구한 값을 카이 제곱의 확률 분포를 사용하여 p-value를 구한 후 , 미리 정해 둔 threshold보다 작으면 X,Y가 통계적으로 유의미한 관계에 없다라는 사실을 기각한다. p-value를 구하는 방법은 아래와 같다.

$$p = P( x > \chi ^2)$$

여기서 $x$의 카이제곱 분포를 뜻하는 확률 변수이다.

여기서 $x$의 degree of freedom은 (X 가질 수 있는 값들의갯수-1)(Y 가질 수 있는 값들의개수-1)이다.

Leave a Comment