본문 바로가기

통계

회귀식 구하는 법

통계는 책마다 사용하는 기호가 달라서 조금 짜증나는 부분이 있는데, 유독 회귀식은 그 정도가 심하다. 그래서 회귀식을 나타내는 기호는 여러 가지가 있는데, 어차피 뜻은 동일하다. 그리고 보통 a+bx가 가장 단순하고 익숙해서 많이 사용되지만, 이 기호는 다중회귀분석이랑 궁합이 안 좋다. 그래서 여기에서는 b0+b1x를 사용하려고 한다.

일단 이전 글에서 회귀분석은 두 변수가 만들어내는 일정한 패턴을 활용해서, 무엇인가를 예측할 때 사용한다고 했었다. 그런데 예측은 어디까지나 예측일 뿐, 정답이 아니다. 그래서 결과 값인 y에는 ^이 들어간다.(표본으로 얻어낸, 결과가 이럴 것이다라고 추리한 예측값)

 


그리고 위의 회귀식을 보면 y절편인 b0와 기울기인 b1이 있는데, 이 값들을 알아야 무엇인가를 예측할 수가 있게 된다. 그래서 직접 구해야 하는데, 회귀식은 기울기를 알아야 y절편을 구할 수 있으므로, 보통 기울기인 b1을 먼저 구한다. 그리고 구할 때는 최소제곱법(또는 최소자승법이라고도 한다)을 사용하는데, 구하는 공식은 아래와 같다.

 


그리고 기울기를 구했다면 이제는 y절편을 구할 수 있는데, 한 가지 문제는 일차함수에서 y절편 구하는 법이랑 조금 다르다. 보통 일차함수에서는 x0을 대입해서 y절편을 구하지만, 회귀분석은 이렇게 구할 수가 없다.

 


왜냐하면 회귀분석은 기본적으로 표본을 데이터로 뽑아서 사용하기 때문에, x=0인 상황을 만들기가 힘들다. 그래서 x=0으로는 y절편을 구하지 못한다. 그뿐만 아니라 표본을 기본바탕으로 사용하기에, 일차함수와는 달리 -값도 다루지 않는다.

 


그런데 가끔 x=0이 가능한 경우도 있다. 하지만 그렇다고 해도 x0을 대입해서 y절편을 구하면 안 된다. 왜냐하면 각 데이터마다 편차가 다르기 때문인데, 만약 x=0으로 y절편을 구한다면, 이것은 하나의 표본(x=0)만을 기준으로 해서 구한 꼴이 된다.

 


그래서 y절편을 구할 때는 표본의 모든 데이터를 기준으로 해서 구하는 것이 좋은데, 이렇게 하는 방법의 하나가 바로 각 변수의 평균을 사용하는 것이다. 그래서 y절편을 구할 때는 각 변수의 평균을 사용한다. 어쨌든 y절편 b0와 기울기 b1을 구하면 회귀식이 완성되고, 이때부터는 무엇인가를 예측하는 예측기법으로 사용할 수가 있다.(얼마나 적합한지, 검증했다는 가정하에)


'통계' 카테고리의 다른 글

결정계수란?  (4) 2019.12.25
회귀분석의 예측구간 문제풀이  (0) 2019.12.24
회귀분석의 예측구간 구하는 법  (0) 2019.12.23
회귀분석 문제풀이  (1) 2019.12.22
회귀분석이란?  (2) 2019.12.20
상관계수의 가설검정 문제풀이  (0) 2019.12.19
상관계수의 가설검정하는 법  (1) 2019.12.18
상관계수 문제풀이  (1) 2019.12.17