본문 바로가기

통계

모비율의 신뢰구간 구하는 법

먼저 통계에서 신뢰구간을 추정할 때는 보통 평균을 많이 추정한다. 그리고 평균 다음으로 많이 추정하는 것이 바로 비율인데, 비율에 대해서 몇 가지 예를 들어보면 아래와 같다. 그런데 알고자 하는 비율을 점추정하는 것이 아니라, 확률분포를 사용해서 구간추정을 하는데, 이것을 모비율의 신뢰구간이라고 부른다.

일단 비율은 구하고자 하는 수가, 전체에서 차지하는 비중을 나타낸 척도인데, 그냥 확률이랑 비슷하다고 생각하면 된다. 그리고 비율은 모집단일 때랑 표본일 때에 따라서 표기하는 기호가 서로 다른데, 모비율은 그냥 라고 읽으면 되고, 표본비율을 피햇이라고 읽으면 된다.

 


그리고 비율 구하는 법은 확률 구하는 법이랑 똑같은데, 예를 들어 사람 100명이 있는데, 이 중에서 여성은 40명이라고 해보자. 그럼 40/100을 해보면, 여성의 비율은 0.4 혹은 40%라는 것을 쉽게 알 수 있다. 이렇게 비율을 구할 때는 그냥 구하고자 하는 수를, 전체의 수로 나눠주면 된다.(모비율은 표본의 수가 굉장히 많기 때문에, 모비율을 실제로 계산하는 경우는 거의 없다. 그래서 통계에서 계산하는 비율은 대부분이 표본비율이다)

 


그리고 비율값은 확률값과 마찬가지로 1을 넘을 수가 없다. 예를 들어 흡연율을 조사하기 위해서 100명을 조사했을 때, 흡연자가 “109처럼 100명이 넘게 나오지는 않는다. 대신 총 100명을 조사하기 때문에, 흡연자는 100명 이하로만 나올 수 있다. , 비율은 1이 나오는 경우를 제외하면, 항상 분자가 분모보다 작다. 그래서 나눗셈을 했을 때, 1이 나오는 경우를 제외하면, 항상 1보다 작은 수만 나온다.(이러한 이유로 모비율의 신뢰구간은 대체로 표본의 수가 많은데, 그것은 다음 글에서 알아보자)

 


그리고 모비율의 신뢰구간을 추정할 때는 정규분포를 사용하는데, 단지 비율을 구하는 것이므로, 정규분포 공식에서 표본평균 대신 표본비율이 들어가고, 모평균 대신 모비율이 들어간다. 또 평균의 표준편차 대신 비율의 표준편차가 들어가는데, 모비율을 모르기 때문에, 표본비율로 구한 표준편차가 들어간다.

 


그럼 위의 공식과 정규분포 그래프의 α/2에 해당하는 x축 좌표 ±Zα/2를 활용하면, 신뢰구간의 공식을 유도할 수 있는데, 모비율 p를 추정하는 것이므로 p를 중심으로 공식을 전개하면 된다. 그래서 모비율의 신뢰구간을 구하는 공식은 아래와 같다.