이전 글에서 상관분석은 점들이 모여 있는 밀도를 표현하기 위해서 수치를 사용하는데, 이 수치가 곧 상관계수라고 했었다. 그럼 상관계수 구하는 법을 알아보면, 일단 두 변수가 서로 상관관계가 있을 때, 점들이 퍼져있는 모습을 보면 일정한 패턴에 모여있다는 것을 알 수 있다. 그런데 점들이 일정한 패턴에 모여 있기는 하지만, 각각 어느 정도의 치우침은 발생한다.
그래서 해당 치우침을 활용하면 상관계수를 구할 수 있는데, 통계에서 치우침을 나타내는 대표적인 척도가 “분산”이다. 그래서 분산을 활용해서 상관계수를 구하는데, 구하는 공식은 아래와 같다.
그럼 공식의 분자를 보통 “공분산”이라고 부르는데, 공분산에 대해서 알아보자. 일단 상관분석은 기본적으로 변수가 2개이기에, 치우침이 두 변수에 의해서 발생한다. 그래서 각 변수의 분산 외에도, 추가로 두 변수의 공통된 치우침도 알아야 하는데, 두 변수의 공통된 치우침을 보통 공분산이라고 한다.(정의가 틀릴 수도 있다. 공분산은 정의 내리기가 좀 애매하다)
그런데 분산은 제곱된 값이기에 +값만 나오지만, 공분산은 -값도 나온다.(그래서 공분산이라는 이름은 잘못 지어진 걸 수도 있다. 분산보다는 오히려 상관계수와 더 비슷하므로, 상관계수와 연관된 이름이 더 좋아 보인다) 그리고 이렇게 -값이 나와야 하는 이유는, 상관계수가 -값도 가지고 있기 때문이다.(-1≤r≤+1) 그런데 분모는 제곱된 값으로 항상 +값만 나오기 때문에, -값이 나오기 위해서는 공분산이 -값도 다루어야 한다.
추가로 상관계수는 모집단일 때는 모상관계수 그리고 표본일 때는 표본상관계수라고 부르는데, 모상관계수는 보통 ρ라고 표기한다.(“로”라고 읽으면 된다) 그리고 모상관계수는 모집단이기에 n으로 나눠줘야 하는데, 단지 모집단은 데이터가 워낙에 방대하므로, 모상관계수를 직접 구할 일은 거의 없다.
그리고 어차피 모상관계수와 표본상관계수의 값은 똑같이 나온다. 왜냐하면 공식을 전개하면 n과 n-1은 상쇄돼서 없어지기 때문인데, n과 n-1이 없어지는 과정은 아래와 같다.(참고로 n과 n-1을 다루느냐 아니면 없애느냐에 따라서, 여러 통계 책마다 공식이 약간씩 다르다)
그리고 상관계수는 n과 n-1을 없앤 공식이 더 간단하고 일반화되어 있으므로, 앞으로는 이 공식을 사용하려고 한다. 그럼 다음 글에서는 상관계수를 직접 구해보자.
'통계' 카테고리의 다른 글
회귀분석이란? (2) | 2019.12.20 |
---|---|
상관계수의 가설검정 문제풀이 (0) | 2019.12.19 |
상관계수의 가설검정하는 법 (1) | 2019.12.18 |
상관계수 문제풀이 (1) | 2019.12.17 |
상관계수란? (1) | 2019.12.15 |
상관분석이란? (0) | 2019.12.14 |
이원배치법 문제풀이(반복이 있는 경우) (1) | 2019.12.13 |
이원배치법 구하는 법(반복이 있는 경우) (1) | 2019.12.12 |