본문 바로가기

통계

분산분석에서 분산 구하는 공식

먼저 분산분석이란 “3개 이상의 모집단 평균이 서로 같은지를 비교하는 분석이라고 했었는데, 분산분석은 분산을 활용해서 평균이 서로 같은지를 비교한다. 그래서 분산분석을 할 때는 당연하게도 분산을 많이 계산하는데, 통계에서 분산 구하는 공식은 크게 2가지가 있다.(공식2는 공식1을 변형해서 만든 공식이다)

그리고 굳이 두 공식의 차이점을 설명하자면, 공식1은 표본이 적을 때 사용하면 편하고, 공식2는 표본이 많을 때 사용하면 편하다.(공식2가 생긴 것은 복잡해 보이지만, 계산하는 방식은 오히려 편하다) 그런데 분산분석은 대체로 표본이 많기 때문에, 공식1보다는 공식2를 사용하는 것이 더 편하다. 물론 어느 공식을 사용할지는 자신의 마음이므로, 공식1을 사용해도 된다. 하지만 표본이 많으면 공식1로 계산하기가 불편하다.(표본이 많으면 공식1로 계산하기가 불편해서, 추가로 공식1을 변형해서 공식2를 만든 것이다) 그래서 분산분석을 할 때는 애초에 공식2로 계산하는 습관을 들이는 것이 더 좋은데, 공식2의 전개 과정은 아래와 같다.

 


또 분산분석을 하려면 제곱합을 알아야 하는데,(“변동이라고도 하는데, 기호는 SS를 사용한다) 분산을 n 또는 n-1로 나누기 이전을 편차 제곱합이라고 부르고,(참고) 줄여서 간단하게 제곱합이라고 부른다. 그런데 분산분석은 사실 분산보다는 이 제곱합을 계산하는 것이다. 그래서 계산할 때, 공식의 아랫부분은 필요가 없으므로 윗부분만 계산하면 된다.

 


그리고 공식의 오른쪽에 있는 항을 수정항이라고 부르는데,(기호는 CT라고 표기한다공식2가 공식1을 변형해서 만든 공식이기에, “수정해서 새롭게 만든 덩어리라는 뜻으로 수정항이라고 부른다. 그런데 이 수정항덕분에 공식2로 계산하는 것이 더 편해지는데, 제곱합을 계산할 때 가장 먼저 이 수정항을 구한다.