본문 바로가기

통계

분산을 구할 때 제곱하는 이유

통계에서 모집단의 분산은 σ2이라고 나타내고, 표본의 분산은 s2이라고 나타내는데, 둘 다 제곱이 붙어 있다는 것을 알 수 있다. 그리고 분산 구하는 공식을 살펴보면, 공식에도 제곱이 붙어있다. 그럼 분산을 구할 때, 왜 제곱을 하는지에 대해서 한 번 알아보자.


 


일단 이전 글에서 분산은 치우침을 나타내는 대표적인 척도라고 했었는데, 수학이라는 언어의 특성상 치우침을 바로 구하기가 조금 애매하다. 예를 들어 평균에서 데이터까지의 거리를 편차(偏差: 치우칠 편, 어긋날 차)라고 해보자. 그럼 데이터가 여러 개 있을 때, 모든 편차들의 합은 얼마일까?


 

그럼 편차들의 합은 1+2+3+4=10이라는 것을 쉽게 알 수 있다. 그런데 수학적 계산으로는 10이라는 값이 나오지 않는다. 왜냐하면 수학이라는 언어의 특성상, 왼쪽 데이터는 -값을 가지기 때문이다.(수학은 수직선을 활용해서 공간을 인식하기 때문이다)


 


그래서 편차들의 합은 1-2-3+4=0이라는 말도 안 되는 값이 나온다. 그래서 원하는 값을 얻기 위해서는 -값을 +값으로 바꿔줘야 하는데, 그러한 방법의 하나가 바로 제곱이다.(12-22-32+42   1+4+9+16) 그래서 편차들을 다 더하기 이전에, 제곱으로 -값을 +값으로 바꾼 다음, 편차들의 합을 구한다. 이렇게 통계에서는 수학의 -값이라는 특성 때문에 분산을 구할 때 제곱을 하는데, 편차를 제곱했기 때문에 실질적인 편차의 치우침보다 더 큰 값이 나온다. 그래서 제곱된 값을 조절하기 위해서 루트를 사용하는데, 이러한 이유로 통계에서는 루트가 심심치 않게 나온다. 참고로 분산에 루트를 씌우면 표준편차가 된다.



'통계' 카테고리의 다른 글

확률분포란?  (0) 2019.10.20
표본분산을 n-1로 나누는 이유  (1) 2019.10.20
분산과 표준편차 문제풀이  (1) 2019.10.19
분산과 표준편차 구하는 법  (5) 2019.10.19
분산과 표준편차란?  (2) 2019.10.17
모집단과 표본이란?  (0) 2019.10.16
확률의 범위 문제풀이  (0) 2019.10.16
확률의 범위  (0) 2019.10.15