본문 바로가기

통계

상관계수란?

이전 글에서 상관분석은 두 변수가 서로 어떠한 관계에 있는지를 파악하는 분석이라고 했었다. 그리고 상관분석은 보통 점들이 흩어져 있는 모습을 보고 두 변수의 관계를 파악하는데, 기울기에 따라서 크게 양의 상관관계음의 상관관계로 나뉜다. 그런데 한 가지 의문점은, 과연 점들이 모여 있는 밀도는 어떻게 표현하는가?이다.

예를 들어 위의 그림을 보면, 모두 양(+)의 상관관계이기는 하지만, 같다고 하기에는 밀도의 차이가 난다. 그래서 각각 어느 정도의 밀도인지를 알아야 하고, 그로 인해 서로 얼마나 다른지도 파악할 수가 있어야 하는데, 그림만으로 이것을 파악하기에는 한계가 있다. 그래서 통계에서는 추가로 숫자를 사용해서 밀도를 표현하는데, 밀도를 표현한 숫자를 보통 상관계수라고 부른다.(기호는 r을 사용한다)

 


그래서 상관계수(r)의 수치를 사용하면 밀도를 표현할 수가 있는데, 보통 -1부터 +1까지만 사용한다.(-1r+1) 그래서 상관계수의 수치가 0에 가까울수록 상관관계가 약하다는 뜻이고, -1에 가까울수록 음(-)의 상관관계가 강하며, +1에 가까울수록 양(+)의 상관관계가 강하다는 뜻으로 해석할 수 있다. 그림으로 나타내면 아래와 같다.

 


참고로 수치에 따라서 상관관계의 정도를 세부적으로 나눠서 해석할 수도 있는데, 단지 해당 수치는 그냥 눈대중으로 나누어 놓은 기준일 뿐, 절대적인 기준은 아니다. 그리고 기준은 상황에 따라서 얼마든지 달라질 수 있으므로, 아래에 있는 기준을 곧이곧대로 믿어서는 안 된다. 그럼 다음 글에서는 상관계수 구하는 법을 알아보자.