통계에서 보통 무엇인가를 조사하고 분석할 때, 데이터의 중심위치를 파악하는 것이 중요한데, 이 중심위치를 나타내는 대표적인 척도가 평균이다. 그리고 평균을 기준으로 각 데이터가 흩어져 있는 정도, 즉 치우침을 나타내는 대표적인 척도가 분산인데, 분산의 특징을 확률분포로 만든 것이 바로 카이제곱분포이다.(분산이라는 제곱된 값을 다루기 때문에 χ2분포라고 불리는데, χ는 “카이”라고 읽으면 된다)
카이제곱분포는 집단의 분산을 추정하고 검정할 때 많이 사용하는데, 분산이라는 제곱된 값을 다루고 있기 때문에, -값은 존재하지 않고 +값만 존재한다. 그래서 정규분포 그래프와 비교해보면, 정규분포는 -값도 다루기 때문에 좌우가 모두 발달하여 “좌우대칭인 모양”을 하는 반면, 카이제곱분포는 +값만 다루기 때문에 한쪽만 유달리 발달하여 오른쪽 꼬리가 긴 “비대칭 모양”을 하고 있다.
그리고 연속확률분포를 쉽게 이해하기 위해서는 먼저 그래프의 모양을 파악해야 하는데, 카이제곱분포의 그래프를 살펴보면, 0의 오른쪽 부분에 분포가 많고, 0에서 멀어질수록 분포가 감소하는 것을 알 수 있다. 그 이유는 데이터나 집단의 치우침을 조사해보면, 치우침이 어느 정도 크기인 경우가 많지, 치우침이 매우 큰 경우는 별로 없기 때문이다. 예를 들어 한국 성인 남자의 평균 키가 173cm라는 것은, 174.58cm와 169.01cm와 172.37cm처럼 평균을 기준으로 치우침이 별로 크지 않은 사람이 많고, 반대로 151.93cm와 149.18cm 혹은 198.46cm와 201.09cm처럼 치우침이 매우 큰 사람은 적다는 소리다. 그래서 카이제곱분포는 0의 오른쪽 부분에 분포가 많고,(치우침이 어느 정도인 경우) 0에서 멀어질수록 분포가 적다.(치우침이 매우 큰 경우)
그런데 그래프를 살펴보면 0근처의 분포도 적다는 것을 알 수 있는데,(치우침이 매우 작은 경우) 그 이유는 데이터나 집단을 조사했을 때 어느 정도의 치우침은 당연하게 발생하기 때문이다. 치우침이 0이라는 것은 곧 치우침이 없다는 소리인데, 현실적으로 데이터나 집단을 조사해보면 어느 정도의 오차는 자연스럽게 따라온다. 이렇게 어느 정도의 치우침은 자연스럽게 발생하기에, 0근처의 분포도 얼마 되지 않는다. 그래서 왼쪽 꼬리도 처져있다.
또 카이제곱분포는 표본의 수에 따라서 그래프의 모양이 달라지는데, 사실 위에 있는 카이제곱분포의 그래프는 표본의 수가 적을 때의 모양이다. 그래서 표본의 수가 많아지면 그래프의 모양은 옆으로 넓적한 정규분포 형태가 된다. 그런데 표본의 수가 적을 때보다는, 표본의 수가 많은 것이 신뢰도가 더 높기에, 옆으로 넓적한 정규분포 형태가 곧 카이제곱분포의 특징이라고 할 수 있다.(카이제곱분포의 특징이, 곧 분산의 특징이다)
그럼 해당 그래프를살펴보면, 정규분포와 마찬가지로 평균 근처에 분포가 많고, 평균에서 멀어질수록 분포가 감소한다는 것을 알 수 있다.(단, 정규분포와는 달리 -값은 존재하지 않고 +값만 존재한다) 그리고 카이제곱분포는 분산의 특징을 나타낸 분포인데, 분산은 치우침을 나타내는 척도이므로, 해당 그래프의 평균은 곧 치우침의 평균이라고 할 수 있다. 그래서 결국 분산이라는 치우침을 분석해보면, 치우침이 어느 정도 크기인 경우가 많은 반면, 치우침이 매우 작거나 혹은 치우침이 매우 큰 경우는 별로 없다는 것을 알 수 있다.
참고로 카이제곱분포도 이전 글에서 알아보았던 t분포와 마찬가지로, 직접 확률을 구할 때 사용하는 분포가 아니라, 나중에 신뢰구간과 가설검정 그 밖에 여러 분석에서 사용하는 분포이다. 그리고 이러한 분석을 할 때는 그래프의 x축 좌표인 χ2값을 사용하는데, χ2값은 보통 “카이제곱분포표”를 가지고 구한다. 그럼 다음 글에서는 카이제곱분포표에 대해서 알아보자.
'통계' 카테고리의 다른 글
통계적 추정이란? (1) | 2019.11.06 |
---|---|
F분포표 보는 법 (2) | 2019.11.05 |
F분포란? (0) | 2019.11.04 |
카이제곱분포표 보는 법 (3) | 2019.11.04 |
t분포표 보는 법 (0) | 2019.11.02 |
t분포란? (1) | 2019.11.01 |
이항분포의 정규근사 (1) | 2019.11.01 |
정규분포 문제풀이 (0) | 2019.10.31 |