본문 바로가기

통계

표본분산을 n-1로 나누는 이유

통계에서 표본분산을 구할 때 n-1로 나누는데, 그 이유는 그냥 n-1로 나누는 것이 값의 정확도가 더 높기 때문이다. 단지 추측이기는 하지만 통계학이 발달하기 이전에는 표본분산도 n으로 나눴을 것이다. 하지만 n으로 나눴을 때만 하더라도 표본분산의 정확도는 그렇게 높지가 않아서, 값의 정확도를 올리기 위하여 여러 가지 연구를 했을 것이다.

그러던 와중에 추정량에 대한 연구를 하다가, 수식적으로 표본분산의 기댓값을 구할 때, n-1로 나눠보니 σ2이 나온다는 것을 증명하였다.(수식의 전개과정을 완벽하게 이해하기 위해서는, 마지막 부분에서 추가적으로 추정량에 대한 이해가 필요하다. 하지만 이 블로그에서는 추정량에 대해서는 다루지 않을 생각이라서, 해당 부분은 다른 통계 책을 참고하기 바람)



그래서 한 번 표본분산을 구할 때 n-1로 나눠보니, n으로 나눴을 때보다 값의 정확도가 더 높아서, 그때부터는 n-1로 나누게 되었을 것이다.(표본분산의 n-1을 보통 자유도라고 부른다) 참고로 표본분산의 기댓값을 구할 때, n-1로 나누면 σ2이 나오지만, n으로 나누면 σ2이 나오지 않는다.



그리고 이렇게 차이가 나는 이유는 바로 표본의 개수 때문이다. 왜냐하면 현실에서 여러 통계량을 계산할 때는, 시간과 비용의 제약으로 몇 개의 표본만 뽑아서 계산한다. 하지만 고작 몇 개의 표본만으로 정확한 값을 구하기란 현실적으로 매우 힘들고, 그렇다고 표본을 많이 뽑기에는 시간과 비용이 많이 든다. 그래서 보다 정확한 값을 구하기 위해서는 어쩔 수 없이 구하는 과정에 변화를 주어야 했는데, 여러 가지 방법 중에서 그나마 간편하고 효과 있는 방법이 바로 분모를 n-1로 나누는 것이다. 사실 표본분산을 n-1로 나눈다고 해서 값의 정확도가 완벽해지는 것은 아니다. 하지만 표본의 개수가 적으면, n으로 나누는 것보단 n-1로 나누는 것이 값의 정확도가 더 높기에, 표본분산을 구할 때는 n-1로 나눈다.