본문 바로가기

통계

회귀분석 문제풀이

회귀분석은 무엇인가를 예측할 때 사용하는 분석인데, 회귀분석으로 무엇인가를 예측하기 위해서는 일단 회귀식을 구해야 한다. 그리고 회귀식을 구할 때는 y절편 b0와 기울기 b1을 구하는 것에 신경 쓰면 되는데, 회귀식이 완성되면 이때부터는 무엇인가를 예측하는 예측기법으로 사용할 수가 있다. 그럼 몇 가지 문제를 풀어보자.

 

 


1. 부모의 키와 자식의 키의 관계를 알아보기 위하여 무작위로 몇 명을 뽑아, 아버지의 키와 아들의 키를 조사하였더니 아래와 같이 나왔다고 한다. 그럼 아래의 자료를 바탕으로 회귀식을 구하고, 아버지의 키가 165cm일 때 아들의 키는 얼마인지 예측하시오.

아버지의 키(x):        160        165        170        175        180        185        190

   아들의 키(y):        172        174        168        181        177        183        184

일단 각 변수의 평균을 구해보면, x의 평균은 175가 나오고 y의 평균은 177이 나온다. 그리고 기울기를 구해야 하는데, 기울기는 한 번에 계산하기가 힘들다. 그래서 기울기를 구할 때 사용하는 값을 먼저 표로 나타내자.

 


그럼 위에 있는 표를 활용해서 기울기를 구해보면 b1=0.45가 나오고, y절편은 b0=98.25가 나온다. 그래서 회귀식을 구해보면 y()=98.25+0.45x가 나온다.

 


다음으로 회귀식이 완성되면 이제부터는 무엇인가를 예측할 수가 있다. 그래서 아버지의 키가 165cm일 때, 아들의 키는 172.5cm 정도라고 예측할 수 있다.(정답이 아니라 예측값이다)

 


보통 상당수의 회귀분석 문제가 회귀식만 구하고 끝내는 경우가 많다. 하지만 회귀분석에서 회귀식을 구하는 이유는, 무엇인가를 예측하기 위해서이다. 그래서 회귀식을 구한 것으로 끝을 낼 것이 아니라, 이렇게 특정 값까지 예측해 보는 것이 좋다.(물론 회귀식이 얼마나 적합한지, 검증했다는 가정하에)

 

 

 

 

2. 소득에 따른 신용카드 사용량을 알아보기 위하여 무작위로 몇 명을 뽑아, 월 소득 대비 신용카드 사용량을 조사하였더니 아래와 같이 나왔다. 그럼 해당 자료를 바탕으로 회귀식을 구하고, 월 소득이 250만 원일 때 신용카드 사용량이 얼마인지 예측하시오.(단위는 만원)

월 소득(x):              100        200        300        400        500

카드 사용량(y):          30          57          76        140        197

일단 각 변수의 평균을 구해보면, x의 평균은 300이 나오고 y의 평균은 100이 나온다. 그리고 기울기에 들어가는 값을 표로 작성하면 아래와 같다.

 


그럼 위의 표를 활용해서 기울기를 구해보면 b1=0.417이 나오고, y절편 b0=-25.1이 나온다. 그래서 회귀식을 구해보면 y()=-25.1+0.417x가 나온다.

 


회귀식을 구했으므로 이제부터는 무엇인가를 예측할 수가 있다. 그래서 월 소득이 250만 원일 때, 카드 사용량은 79.15만 원 정도라고 예측할 수 있다.

 


 

 

 

참고로 위에 있는 두 개의 문제를 통해서 회귀식을 구하고 예측까지 해보았다. 그런데 예측은 어디까지나 예측일 뿐, 해당 예측값이 맞을 확률은 거의 제로에 가깝다. 그래서 해당 예측값만 가지고 무엇인가를 예측하기에는 한계가 있는 것도 사실이다. 그런데 만약 예측값을 구간으로 설정한다면? 상황은 조금 달라질 것이다. 예를 들어 위의 1번 문제의 답이 “167cm ~ 177cm 사이일 것이다라고 한다면, 이 회귀분석의 예측값은 훨씬 신뢰도가 올라간다.

 


그래서 통계에서는 이러한 점추정의 한계를 극복하기 위하여 구간추정을 한다. 그리고 구간을 막 잡는 것이 아니라, 나름의 방법으로 신뢰할 수 있게 설정하는데, 이렇게 설정된 구간을 신뢰구간이라고 한다. 그런데 회귀분석은 무엇인가를 예측하려는 성향이 강하기 때문에, 신뢰구간보다는 예측구간이라고 부른다. 그럼 다음 글에서는 회귀분석의 예측구간에 대해서 알아보자.