본문 바로가기

통계

모평균의 신뢰구간 구하는 법(σ를 모르는 경우)

먼저 모평균의 신뢰구간은 크게 σ를 아는 경우σ를 모르는 경우로 나뉘는데, 이전 글에서는 σ를 아는 경우에 대해서 알아보았다. 그런데 사실 무엇인가를 조사할 때, 모표준편차(σ)와 같은 모집단의 모수를 아는 경우는 거의 없다. 그래서 모평균의 신뢰구간은 σ를 아는 경우보다는 σ를 모르는 경우더 일반적이고 현실적이다.

일단 모평균의 신뢰구간을 구할 때, “σ를 아는 경우에는 정규분포를 사용하는데, “σ를 모르는 경우에는 t분포를 사용한다. 그리고 모표준편차인 σ를 모르기 때문에 표본표준편차인 s를 사용하는데, 그래서 정규분포 공식에서 σs로 바뀐다. 그리고 이 공식이 바로 t분포의 공식이다.(t분포는 정규분포를 기반으로 만들어진 분포이기에, 애초에 공식이 비슷하다)

 


그다음 t분포 그래프의 α/2에 해당하는 양쪽 x축 좌표 ±tα/2t분포 공식을 활용하면, 신뢰구간의 공식을 만들 수 있다. 그런데 모평균이 얼마인지를 추정하는 것이므로, 모평균 μ를 중심으로 공식을 전개하면 된다. 그래서 σ를 모르는 경우의 공식은 아래와 같다.

 


그런데 t분포는 표본의 수(n)30개 이상이면 정규분포와 값이 비슷해지기에, n30이면 t분포 대신 정규분포를 사용해도 된다. 그런데 이 부분이 조금 헷갈릴 수 있는데, 그림으로 표현하면 아래와 같다.(모집단의 모수를 추정할 때, 표본의 수가 적을수록 오차는 매우 크고, 표본의 수가 많아질수록 오차는 점점 작아진다. 그런데 표본의 수가 30개 정도쯤 되면, 이때부터는 오차의 차이가 그렇게 크지 않다. 그래서 기준을 30개로 잡는다)

 


그리고 어차피 n30이면 t분포를 사용하기가 힘들다. 왜냐하면 t분포는 표본이 적을 때 사용하려고 만든 분포이기에, “t분포표는 표본 31개 이하의 값 위주로 구성되어 있다.(기준을 31개로 잡지 않은 이유는, 기준으로 하기에는 31개보다는 30개가 보기에 더 편하기 때문이다) 그래서 표본이 30개가 넘어가면 어차피 t분포를 사용할 수 없기에, 정규분포를 사용한다.