본문 바로가기

통계

결정계수란?

일단 회귀분석은 회귀식을 활용해서 무엇인가를 예측하는 분석이다. 그래서 무엇인가를 예측할 때, 회귀분석을 사용하면 눈대중으로 막 잡은 수치보다는 훨씬 신뢰할 만하다. 하지만 회귀분석으로 무엇인가를 예측해도, 정답인 실제값은 나오지 않는다. 다만 틀릴 확률이 존재하는 예측값이 나오면서 항상 오차가 발생한.

그런데 점들이 모여 있는 밀도에 따라서, 오차의 크기가 다르다. 예를 들어 점들이 모여 있는 밀도가 촘촘한 경우에는, 예측값과 실제값의 차이가 얼마나지 않는다.(오차가 작다) 하지만 점들이 모여 있는 밀도가 느슨한 경우에는, 예측값과 실제값의 차이가 많이 난다.(오차가 크다) 그래서 똑같은 회귀분석이라도, 점들이 모여 있는 밀도에 따라서 오차의 크기가 다르고, 그로 인해 회귀식의 정확도가 달라진다.

 


이렇게 점들이 모여 있는 밀도에 따라 회귀식의 정확도가 결정되는데, 문제는 정확도가 구체적으로 어느 정도인지, 얼마나?” 정확한지를 판단할 수 있어야 한다. 그런데 얼마나 정확한지는, 그림으로 파악할 수가 없다. 그래서 통계에서는 숫자를 활용하는데, 회귀식이 얼마나 정확한지를 나타내는 숫자가 결정계수이다.(결정계수는 상관분석의 상관계수와 비슷한 개념인데, 기호는 R2을 사용한다) 그래서 결정계수(R2)를 사용하면 회귀식이 얼마나 정확한지를 나타낼 수가 있는데, 보통 숫자 0부터 1까지만 사용한다.(0R21) 그래서 결정계수가 0에 가까울수록 회귀식의 정확도는 매우 낮다고 할 수 있고, 반대로 결정계수가 1에 가까울수록 회귀식의 정확도는 매우 높다고 할 수 있다. 그래서 결정계수가 낮을수록 예측값은 믿을 게 못 되고, 반대로 결정계수가 높을수록 예측값은 믿을 만하다고 해석할 수 있다.

 


그리고 결정계수를 구하는 방법은 크게 2가지가 있는데, 하나는 상관계수를 제곱해서 구하는 방법이고, 나머지 하나는 분산분석의 데이터를 가지고 구하는 방법이다.(회귀변동/총변동으로 구한다) 그런데 상관계수는 따로 계산하는 것이 귀찮기 때문에보통 두 번째 방법을 많이 사용하는데, 구하는 방법은 다음 글에서 다루기로 하자.

 


참고로 결정계수에도 한계가 있는데, 바로 수치가 어중간할 경우에는 정확도를 판단하기가 애매해진다. 예를 들어 결정계수가 극단적으로 0이 나온다면, 이 회귀식은 정확도가 매우 떨어지기에, 예측값을 안 믿으면 그뿐이다. 하지만 결정계수가 어중간하게 0.4가 나올 경우에는 판단 자체가 애매해진다. 그래서 회귀식의 정확도가 애매할 경우, 해당 회귀식의 결과를 믿을 것인지아니면 믿지 않을 것인지를 판단해야 하는데, 결정계수로는 이러한 의사결정을 못한다. 그래서 추가로 가설검정을 통해서 이러한 의사결정을 하는데,(가설검정이 양자택일이므로, 이러한 의사결정에 적합하다) 다음 글에서는 회귀식의 가설검정(분산분석)에 대해서 알아보자.