본문 바로가기

통계

상관분석이란?

통계에서는 2개의 변수 xy가 있을 때, 두 변수가 서로 어떠한 관계에 있는지를 파악하는 경우가 종종 있다. 예를 들어

광고(x)를 많이 할수록, 판매량(y)이 증가하는지?

교육(x)을 많이 받을수록, 소득(y)이 증가하는지?

담배(x)를 자주 피울수록, 혈압(y)이 증가하는지?

(x)가 클수록, 몸무게(y)가 증가하는지?

와 같이 두 변수가 서로 어떠한 관계에 있는지를 파악하는 분석이 상관분석이다. 그리고 두 변수의 상관관계를 그림으로 나타낼 수가 있는데, 몇 가지 예를 들면 아래와 같다.





그럼 위와 같이 그림으로 나타내면 두 변수가 서로 어떠한 관계에 있는지를 쉽게 파악할 수 있는데,(이러한 그림을 보통 산포도혹은 산점도라고 부른다) 보통 x가 증가할수록 y도 증가하는 것을 (+)의 상관관계라고 부르고, 반대로 x가 증가할수록 y는 감소하는 것을 (-)의 상관관계라고 부른다.

 


그런데 상관분석에서 조심할 것이 하나 있는데, 상관분석은 두 변수가 서로 어떠한 관계에 있는지는 파악할 수 있지만, 서로의 인과관계는 파악할 수가 없다. 예를 들어 여름이 다가올수록 아이스크림은 점점 많이 팔리고, 또 여름이 다가올수록 모기는 점점 많이 생겨난다. 그럼 두 변수의 관계를 그림으로 나타내면 아래와 같은데,

 


문제는 아이스크림 때문에 모기가 많이 생겨난 것도, 모기 때문에 아이스크림이 많이 팔리는 것도 아니다. , 서로 직접적인 영향은 없다. 단지 또 다른 변수인 여름에 의해서 아이스크림 판매량과 모기의 발생 수가 증가한 것이다.(물론 서로 직접적인 영향을 주고받는 경우도 있다) 그래서 상관분석은 서로 어떠한 관계에 있는지 상관관계는 파악할 수 있지만, 서로 직접적인 영향을 주고받는 인과관계는 파악할 수 없다. 그러므로 그림의 결과를 곧이곧대로 해석하기보다는, 다른 변수의 가능성도 열어둔 체, 해석에 신중을 기할 필요가 있다.