본문 바로가기

통계

상관계수 문제풀이

통계에서 표본분산을 계산하는 일은 굉장히 귀찮은 과정인데, 상관계수는 표본분산을 기본 바탕으로 만들어졌기 때문에, 계산하기가 굉장히 귀찮다. 그리고 이전 글에서 상관계수는 모상관계수와 표본상관계수가 있기는 하지만, 실질적으로 모상관계수를 구할 일은 거의 없다고 했었다. 그래서 대부분 표본상관계수를 구하는 것인데, 공식은 아래와 같다.

 

 


1. 어느 회사에서 영업사원들의 지각횟수와 제품의 판매횟수가 서로 상관관계가 있는지를 알아보려고 한다. 그래서 영업사원 5명을 대상으로, 한 달 동안 지각횟수와 판매횟수를 조사하였더니 아래와 같이 나왔다. 그럼 두 변수의 상관계수를 구하고, 상관관계가 있는지를 파악하시오.

지각횟수(x):        1        2        3        4        5

판매횟수(y):        8        7        6        4        5

일단 변수 x의 평균은 3이고 변수 y의 평균은 6이다. 그래서 상관계수를 구해보면 r=-0.9가 나오는데, 수치가 -1에 가까우므로 지각횟수와 판매횟수의 상관관계는 매우 높다고 할 수 있다.(음의 상관관계가 매우 높다)

 

 

 


 

2. 어느 공장에서 작업자들이 교육을 많이 받을수록 생산량이 증가하는지를 조사 중이다. 그래서 4명의 작업자를 뽑아 교육받은 횟수생산량을 조사하였더니 아래와 같이 나왔다고 한다. 그럼 두 변수의 상관계수를 구하고, 상관관계가 있는지를 파악하시오.

                                                     교육받은 횟수(x):        1        3        5        7

                                                     생      산      량(y):      35      45      35      45

일단 변수 x의 평균은 4이고 변수 y의 평균은 40이다. 그래서 상관계수를 구해보면 r=0.45가 나오는데, 상관관계를 판단하기에는 수치가 조금 애매하다. 그래도 결과를 내보면 교육받은 횟수와 생산량은 서로 상관관계가 있기는 하다.(양의 상관관계가 있다)

 


참고로 위의 2번 문제와 같이 상관계수가 어중간하게 나오면, 결과를 해석하기가 조금 애매하다.(그림도 애매하게 나왔다) 물론 아래와 같이 세부적으로 상관관계의 정도를 나눠놓은 기준이 있기는 하지만, 눈대중으로 나눠놓은 것이라서 기준으로 사용하기에는 약간 못 미덥.

 


또 상관분석은 변수에 따라서 치우침이 다른 경우가 많은데, 변수의 특성상 치우침이 상대적으로 작아서 상관계수가 크게 나오는 경우가 있는 반면, 치우침이 상대적으로 커서 상관계수가 작게 나오는 경우도 있다. 그래서 위에 있는 기준이 잘 들어맞지 않는 경우가 생기는데, 그래서 추가로 가설검정으로 결과를 해석하기도 한다. 그럼 다음 글에서는 상관계수의 가설검정에 대해서 알아보자.

'통계' 카테고리의 다른 글

회귀식 구하는 법  (1) 2019.12.21
회귀분석이란?  (2) 2019.12.20
상관계수의 가설검정 문제풀이  (0) 2019.12.19
상관계수의 가설검정하는 법  (1) 2019.12.18
상관계수 구하는 법  (2) 2019.12.16
상관계수란?  (1) 2019.12.15
상관분석이란?  (0) 2019.12.14
이원배치법 문제풀이(반복이 있는 경우)  (1) 2019.12.13