본문 바로가기

통계

회귀분석의 예측구간 구하는 법

이전 글에서 회귀분석은 무엇인가를 예측할 때 사용하는 분석인데, 보통 회귀식을 활용해서 무엇인가를 예측한다고 했었다. 하지만 회귀식으로 구한 예측값은 점추정치라서, 해당 예측값이 맞을 확률은 거의 제로에 가깝다. 그래서 값을 신뢰하기에는 한계가 있기에, 예측값을 구간으로 설정하는데, 바로 예측값의 신뢰구간을 구하는 것이.

그런데 신뢰구간은 표본의 통계량을 가지고, “모집단의 모수가 이럴 것이다라고 추리하는 것이다. 하지만 회귀분석은 모수를 추리하려는 특성이 조금 있기는 하지만, 이것보다는 무엇인가를 예측하려는 특성이 더 강하다. 그래서 신뢰구간보다는, 예측구간(예측신뢰구간)이라고 부르는 것이 더 좋아 보인다. 아무튼 예측구간은 예측값인 y0()을 구간으로 설정하는 것이다.

 


그런데 보다시피 공식이 굉장히 복잡하다. 그래서 계산하기도 복잡하기에, 보통 통계학 책에서는 잘 다루지 않는다. 하지만 잘 다루지 않을 뿐, 예측구간은 중요하다. 그래서 계산은 대충 훑고 넘어가도 되지만, 왜 사용하는지?” 정도는 알아두는 것이 좋다. 그리고 예측구간을 구할 때는 기본적으로 t분포를 사용하는데, 한 가지 주의할 것은 자유도가 n-2이다. 왜냐하면 회귀분석은 변수가 xy 이렇게 2개이기 때문에, 각각의 변수에서 -1을 하면 최종적으로 -2가 된다. 그리고 루트의 앞부분은 오차제곱합(SSE)인데, 나중에 분산분석에서도 사용된다.

 


그리고 공식을 보면 생소한 기호 y0()x0가 있는데, 이 기호들은 바로 특정 사례에서 얻어낸 특정 값이다. 예를 들어 이전 글의 1번 문제에서 아버지의 키가 165cm일 때, 아들의 키는 172.5cm 정도일 것이다라고 예측했는데, 여기서 165cmx0이고 172.5cmy0()이다. 이렇게 예측구간을 구할 때는 특정 사례에서 얻어낸 특정 값이 들어가는데, 특정 사례를 예측한 후에, 해당 값을 토대로 구간을 설정하기 때문이다.

 


참고로 표본의 수가 n30일 때는 정규분포를 사용할 수가 있다. 하지만 표본의 수가 30개 이상이면 손으로 계산하기가 힘들어서, 실질적으로 정규분포를 사용할 일은 거의 없다.(, 통계프로그램에서는 가능하다) 그럼 다음 글에서는 직접 예측구간을 구해보자.

'통계' 카테고리의 다른 글

회귀식의 가설검정(분산분석) 문제풀이  (0) 2019.12.27
회귀식의 가설검정(분산분석)하는 법  (0) 2019.12.26
결정계수란?  (4) 2019.12.25
회귀분석의 예측구간 문제풀이  (0) 2019.12.24
회귀분석 문제풀이  (1) 2019.12.22
회귀식 구하는 법  (1) 2019.12.21
회귀분석이란?  (2) 2019.12.20
상관계수의 가설검정 문제풀이  (0) 2019.12.19