본문 바로가기

통계

분산분석이란?

통계에서는 서로 다른 집단끼리 비교를 많이 하는데, 특히 평균이 서로 같은지를 비교하는 경우가 많다. 그래서 집단이 2개일 때는 보통 “가설검정으로 평균이 서로 같은지를 비교하지만, 집단이 3개 이상이면 가설검정으로 평균을 비교하기가 힘들다. 그래서 집단이 3개 이상일 때는 분산분석을 활용한다.(분산분석을 “ANOVA”라고 부르기도 한다)

이렇게 분산분석은 3개 이상의 모집단 평균이 서로 같은지를 비교하는 분석인데, 분산분석의 가설을 한 번 살펴보면, 집단끼리 평균이 서로 같은지 아니면 다른지에 대한 내용을 다루고 있다.(분산분석은 같다같지 않다만 파악할 뿐, 가설검정처럼 크다작다는 파악하지 않는다) 참고로 현실에서 여러 실험이나 연구를 할 때, 집단이 2개인 경우보다는 집단이 3개 이상인 경우가 훨씬 많다. 그래서 분산분석은 나름 활용도가 높다.

 


그런데 평균이 서로 같은지를 비교하는 분석인데, “분산분석이라고 이름을 지어놓아서 약간 이상하다고 생각할 수도 있는데, 그것은 분산을 활용해서 평균을 비교하기 때문이다. 왜냐하면 통계에서 분산은 치우침을 나타내는 척도인데, 치우침이 크다는 것은 곧 평균이 서로 다르다는 소리고, 반대로 치우침이 작다는 것은 곧 평균이 서로 같다는 소리다.(현실에서 여러 실험이나 연구를 할 때, 어느 정도의 오차는 당연하게 발생한다. 그런데 통계는 100%의 정답을 추구하지 않고, 어느 정도의 오차는 인정하기에, 평균이 어느 정도 비슷하면 그냥 같다고 취급한다)

 


그래서 분산을 구했을 때, 분산이 크면 집단끼리 서로 평균이 다르다는 것을 알 수 있고,(분산이 크다는 것은 치우침도 크다는 소리이므로) 반대로 분산이 작으면 집단끼리 서로 평균이 같다는 것을 알 수 있다.(통계는 어느 정도의 오차는 인정하기에, 분산이 작으면 그냥 치우침이 없다고 결론 내린다) 어쨌든 분산을 구해보면 집단끼리 치우침이 있는지를 파악할 수 있는데, 그래서 분산분석은 치우침이 있는지를 파악하는 분석이라고도 말할 수 있다.