본문 바로가기

통계

두 모평균 차이의 신뢰구간 구하는 법(σ를 모르는 경우)

먼저 두 모평균의 신뢰구간은 두 모집단의 평균이 서로 얼마나 차이 나는지를 추정하는 것인데, 이전 글에서는 σ1σ2를 아는 경우에 대해서 알아보았다. 하지만 모표준편차(σ)는 모평균(μ)을 알아야만 구할 수 있으므로, “σ1σ2를 아는 경우는 거의 없다고 생각해도 된다. 그래서 두 모평균의 신뢰구간은 대부분 σ1σ2를 모르는 경우에 해당하는데, 신뢰구간을 구할 때는 t분포를 사용한다. 그리고 신뢰구간 구하는 공식은 아래와 같다.

그럼 공식을 한 번 살펴보면, 일단 공식에 있는 sp합동표준편차라고 부르는데, 두 집단의 표본을 모아서 한 번에 계산한 표준편차이다. 보통 추정을 할 때 표본의 수가 너무 적으면 추정값의 결과를 신뢰하기가 힘들다. 그래서 신뢰도를 높이기 위해서 두 집단의 표본을 모아서 한 번에 합동표준편차를 계산한다는 말이 있는데, 사실 별로 효과는 없다. 그래서 이전 글에서 다루었던 σ1σ2를 아는 경우처럼 따로따로 구했을 때와 합동표준편차로 구했을 때의 값을 서로 비교해보면, 값의 차이는 그렇게 크지가 않다. 그래서 쓸데없이 공식만 1개 늘어난 셈인데, 개인적인 생각으로는 σ1σ2를 아는 경우처럼 따로따로 계산해도 된다고 생각하지만, 일반적으로 통용되는 공식이 이것이기에, 그냥 합동표준편차를 사용하려고 한다. 합동표준편차 구하는 법은 아래와 같다.

 


그리고 맨 위에 있는 신뢰구간 공식을 보면 tα/2를 구하는 자유도가 n1+n2-2라는 것을 알 수 있는데, 합동표준편차로 두 집단의 표본을 모아서 한 번에 계산하기 때문이다. 그래서 두 집단의 자유도 n1-1n2-1을 서로 더해보면, 자유도는 n1-1+n2-1=n1+n2-2가 나오는 것을 알 수 있다.

 


그리고 두 모평균의 신뢰구간도 단일 모평균의 신뢰구간과 마찬가지로 표본의 수가 많아지면 정규분포를 사용한다. 그런데 단일 모평균에서는 n30이라는 명확한 기준이 있었는데,(참고) 두 모평균의 신뢰구간에서는 대표본소표본이라고만 나타낼 뿐, 명확한 기준이 없다. 왜냐하면 그 이유는 t분포표에 있는데, 보통 t분포는 표본이 적을 때 사용하려고 만든 분포이기에, 표본의 수가 31(자유도 기준으로 30)를 넘어가면 사용할 수가 없다. 그래서 단일 모평균에서는 기준을 30개로 잡은 것이다.(기준을 31개로 잡지 않은 이유는, 31개보다는 30개가 보기에 편하기 때문이다)

 


그런데 두 모평균에서는 자유도를 n1+n2-2로 다루기 때문에, 표본의 수가 조금만 커지면, 해당 값이 t분포표에 없는 경우가 많다. 예를 들어 두 집단의 표본이 각각 15개와 21개라고 한다면, 두 집단 모두 표본이 30개 이하이므로 t분포를 사용해야 할 것 같지만, 두 집단을 서로 더해보면 자유도는 15+21-2=34가 나온다. 그런데 자유도 34t분포표에 존재하지 않는다. 이렇게 두 집단의 자유도가 어떻게 나올지 변수가 있어서, n30처럼 명확한 기준을 세울 수가 없다. 그래서 대표본과 소표본처럼 두리뭉실하게 기준을 세워 놓은 것이고, 표본의 수가 많아지면 t분포를 사용할 수 없기에 정규분포를 사용한다. 그래서 문제를 풀 때 표본의 수가 대표본인지 혹은 소표본인지 애매한 경우에는, n1+n2-2t분포표에 있는지를 먼저 파악한 다음, 없다면 정규분포를 사용하면 된다. 어쨌든 대표본일 때는 정규분포를 사용하는데, 공식은 이전 글에서 다루었던 σ1σ2를 아는 경우와 비슷하다. 단지 모분산을 모르기 때문에, 모분산인 σ2 대신 표본분산 s2을 사용한다.