본문 바로가기

통계

신뢰구간이란?

이전 글에서 점추정은 그 특성상 신뢰도가 떨어지기에, 신뢰도를 높이기 위해서 일정구간을 활용한 구간추정을 한다고 했었다. 그런데 구간추정을 할 때 과연 구간의 길이를 어느 정도로 할 것이냐?”라는 문제가 있다. 예를 들어 전 세계 성인 남자의 평균 키를 150cm~190cm로 구간추정 했다고 해보자. 그럼 이 구간의 길이는 너무 길어서, 평균 키(모수)가 해당 구간 안에 들어가는 것은 너무나도 당연하다. 그래서 이 구간은 추정치로서 값어치가 떨어진다. 반대로 전 세계 성인 남자의 평균 키를 170cm~172cm로 구간추정 해보면, 구간의 길이가 너무 짧아서, 평균 키(모수)가 해당 구간 안에 들어갈 확률은 매우 낮아진다. 그래서 이 구간은 신뢰도가 떨어진다.

그래서 둘 다 신뢰하기에는 구간이 너무 막 잡혔는데, 이렇듯 구간의 길이는 너무 길어서 좋을 것이 없고, 반대로 너무 짧아서도 좋을 것이 없다. 그러므로 구간추정으로 구간을 만들 때는, 너무 길지도 너무 짧지도 않은 적당한 구간을 만들 필요가 있는데, 나름의 기준을 통해서 신뢰할 수 있는 구간의 길이를 만든 것이 신뢰구간이다.


 

그런데 신뢰구간이라고 해서 완벽한 것은 아니다. 아무리 신뢰할 수 있는 구간이라도 모수가 신뢰구간 안에 포함되지 않을 확률은 항상 존재하는데, 이 확률을 보통 α(알파)라고 부른다. 그런데 신뢰구간은 양쪽으로(왼쪽과 오른쪽) 다루어야 하므로, α가 둘로 나뉘어서 α/2가 된다. 그래서 신뢰구간을 추정할 때는 α/2가 많이 나오는데, 정규분포 그래프에 대입해서 이해하면 편하다.(신뢰구간은 크게 모평균모비율모분산의 신뢰구간을 많이 구하는데, 각 신뢰구간을 추정할 때는 각각에 맞는 확률분포를 사용해서 구한다)


 

그런데 확률의 총합은 1이므로, 그래프의 총면적도 1이다. 그래서 모수가 신뢰구간 안에 포함되지 않을 확률이 α이므로, 모수가 신뢰구간 안에 포함될 확률은 1-α가 된다. 그리고 1-α신뢰수준이라고 부르는데, 보통 90%95%99%의 확률을 많이 사용한다. 그리고 신뢰수준을 기반으로 설정된 구간이 신뢰구간인데, 이렇게 구간을 설정할 때는 임의대로 막 잡는 것이 아니라, 확률분포의 1-α를 기준으로 구간을 설정한다.


 

그런데 90%95%99%의 신뢰수준은 어디까지나 이 정도 수준으로 하겠다와 같이 내가 설정한 확률이라서, 실제로 일어나는 확률과는 조금 다르다. 그래서 현실에서 여러 통계조사를 해보면 결과가 틀리게 나오는 경우도 많다. 그러므로 신뢰구간의 결과를 곧이곧대로 믿어서는 안 되며, 신뢰구간을 추정할 때는 90%” 혹은 95%”처럼, 앞에 자를 붙이는 것이 더 정확하기는 하다. 그리고 통계에서 여러 추정을 할 때, 표본의 수가 너무 적으면, 해당 추정값의 신뢰도는 떨어질 수밖에 없다. 예를 들어 전 세계 성인 남자는 대략 수십억 명이나 되는데, 고작 몇 개의 표본만 뽑아서 조사한다면, 이 조사는 애초에 값을 신뢰하기가 힘들다. 그래서 신뢰구간의 신뢰도를 높이기 위해서는, 기본적으로 표본의 수가 어느 정도 이상은 되어야 한다.