본문 바로가기

통계

두 모비율 차이의 가설검정하는 법

이전 글에서 다루었던 두 모평균과 마찬가지로, 두 모비율의 가설검정도 집단 각각의 모수를 파악하는 것이 아니라, 두 집단의 모비율이 서로 어떠한 관계에 있는지를 파악하는 것이다. 그리고 두 모비율의 관계를 파악할 때는 보통 뺄셈을 사용하기에,(참고) 뺄셈을 활용해서 귀무가설과 대립가설을 설정하기도 한다. 그래서 가설을 표현하는 방법은 크게 2가지이다.

그런데 단일 모비율의 가설검정과 마찬가지로, 두 모비율의 가설검정에서도 검정통계량을 조심해야 한다. 왜냐하면 검정통계량은 대부분 신뢰구간에서 사용한 공식을 그대로 사용하는데, 모비율의 검정통계량은 신뢰구간에서 사용한 공식이랑 서로 다르다.

 


그리고 두 모비율의 가설검정은 두 모비율의 관계가 이럴 것이다라는 두 개의 가설 중, 어느 가설이 더 타당한지를 판단하는 것이다. 즉 모비율 p1p2를 모르는 상태인데, 그래서 검정통계량에 나와 있는 p1p2는 실제의 모비율이 아니라 가설 속의 모비율이다.(귀무가설과 대립가설 속에 나오는 모비율) 그리고 p1-p2=0이라고 나와 있으므로, 검정통계량의 p1-p2에는 0을 대입하면 된다.(문제를 응용하면, 0 이외에 다른 수치도 사용할 수 있다)

 


그런데 이 가설 속의 모비율 때문에, 단일 모비율과 두 모비율의 표준편차 구하는 법이 서로 다르다. 먼저 단일 모비율의 경우에는 가설 속의 모비율이 구체적인 수치를 다루고 있어서, 그냥 p0를 사용해서 표준편차를 구한다. 하지만 두 모비율의 경우에는 가설 속의 모비율이 구체적인 수치를 다루지 않아서, p0로는 표준편차를 구할 수가 없다. 그래서 표본비율을 사용한 근삿값으로 표준편차를 구한다.

 


그런데 신뢰구간처럼 표본비율을 따로따로 구하지 않고, 두 집단의 표본을 합쳐서 합동표본비율을 구하는데, 계산하는 방법은 아래와 같다. 그리고 합동표본비율을 사용하는 이유는 바로 귀무가설 때문인데, 귀무가설을 보면 p1=p2라고 되어 있어서, 두 집단의 모비율이 서로 같다는 가정이 있다. 그래서 두 집단의 표본을 합쳐서 계산한다는 말이 있는데, 사실 조금 말이 안 된다. 왜냐하면 귀무가설은 원래 =를 사용해서 표현할 뿐, 두 모비율이 서로 같은지 아니면 다른지는 아직 모르는 상황이다. 그리고 대립가설에서 엄연히 를 표현하고 있듯이, 두 모비율이 서로 다를 확률도 항상 존재한다.

 


그래서 개인적인 생각으로 굳이 합동표본비율을 사용하지 않고, 신뢰구간에서 사용한 공식을 그대로 사용해도 된다고 생각하지만, 그럼에도 일반적으로 통용되는 공식이기에 합동표본비율을 사용하려고 한다.(표본비율을 신뢰구간처럼 따로따로 구했을 때와, 합동표본비율로 구했을 때의 값을 비교해보면, 값의 차이는 별로 나지 않는다) 그리고 두 모비율의 가설검정은 정규분포를 사용하는데, 사용하는 방법은 단일 모비율이랑 거의 같으므로 여기선 생략한다.