본문 바로가기

통계

회귀식의 가설검정(분산분석)하는 법

이전 글에서 회귀분석은 오차의 크기에 따라서 회귀식의 정확도가 달라진다고 했었는데, 회귀식이 얼마나 정확한지를 나타내는 숫자가 결정계수라고 했었다. 그래서 결정계수가 높을수록 예측값의 결과를 믿을 수가 있고, 반대로 결정계수가 낮을수록 예측값의 결과를 믿기 힘들다고 했었다. 그런데 결정계수가 어중간하면, 예측값의 결과를 믿을 것인지아니면 믿지 않을 것인지를 판단하기가 애매하기에, 추가로 가설검정을 한다고 했었다.

일단 회귀식은 모집단과 표본일 때에 따라서 표기하는 기호가 다르다. 그리고 모회귀식은 계산할 때 직접적으로 사용을 하지 않기에 활용도가 떨어지지만, 가설검정을 할 때는 알아야 하는데, 보통 모수를 가지고 귀무가설과 대립가설을 설정하기 때문이다. 그래서 회귀식의 가설검정에서는, 모회귀식의 기울기 β1을 가지고 가설을 설정한다.(β베타라고 읽으면 된다)

 


왜냐하면 회귀식으로 무엇인가를 예측하기 위해서는 기울기가 있어야 하는데, 만약 기울기가 없다면,(β1=0) 예측값은 항상 동일하게 나오기 때문에 회귀식은 쓰임새가 없어진다. 그래서 일단 기울기=0인 귀무가설은 회귀식이 유용하지 않다는 뜻이다. 반면에 대립가설의 기울기0이 아니라는 것은, 곧 기울기가 있다는 소리고, 그로 인해 회귀식은 쓰임새가 있다는 소리이므로, 대립가설은 회귀식이 유용하다는 뜻이다.

 


다음으로는 검정통계량은 보통 분산분석으로 구하는데, 분산분석으로 회귀제곱합(SSR)과 오차제곱합(SSE)을 계산해야 한다. 그래서 먼저 예측값과 평균의 차이를 제곱해서 합한 것이 회귀제곱합인데, SSR=(예측값-평균)2으로 구한다. 그리고 관측값과 예측값의 차이를 제곱해서 합한 것이 오차제곱합인데, SSE=(관측값-예측값)2으로 구한다. 자세한 계산은 다음 글에서 알아보자.

 


참고로 회귀식을 검정할 때는 기본적으로 가설검정의 틀을 사용하지만, 다른 가설검정의 귀무가설과 대립가설이랑은 약간 차이가 있다. 그래서 다른 가설검정에서 는 방향을 모른다는 뜻이므로 양측검정을 하지만, 회귀분석에서 는 기울기가 있다는 뜻일 뿐, 방향이랑은 상관이 없다. 그래서 양측검정을 하지 않는다. 그리고 기각역을 구할 때는 F분포를 사용하기에, 회귀식을 검정할 때는 보통 우측검정만 한다. 어쨌든 회귀분석은 다른 가설검정과는 의 의미가 서로 다르기 때문에 양측검정을 하지 않는다.(참고)