본문 바로가기

통계

F분포란?

F분포는 카이제곱분포와 마찬가지로 분산을 다룰 때 사용하는 분포인데, 카이제곱분포가 한 집단의 분산을 다뤘다면, F분포는 두 집단의 분산을 다룬다. 그리고 두 집단의 분산이 크기가 서로 같은지 아니면 서로 다른지를 비교하는데, 보통 나눗셈을 활용해서 두 집단의 분산을 비교한다.(F분포의 그래프는 카이제곱분포와 비슷하게 비대칭 모양을 하고 있는데, 카이제곱분포와 마찬가지로 +값만 존재한다)

갑자기 웬 나눗셈이냐고 할 수도 있겠지만, 나눗셈을 활용하면 두 집단의 분산이 서로 같은지 아니면 서로 다른지를 비교할 수 있다. 예를 들어 5/5=1인데, 5/51인 이유는 분자와 분모의 크기가 서로 같기 때문이다. 그래서 두 집단의 분산을 서로 나눴을 때, 숫자 1이 나오면 두 집단의 분산은 크기가 같다는 것을 알 수 있다. 다음으로 8/5=1.6인데, 8/51보다 큰 수가 나온 이유는 분자가 분모보다 더 크기 때문이다. 그래서 두 집단의 분산을 서로 나눴을 때, 1보다 큰 수가 나오면 두 집단의 분산은 크기가 다르다는 걸 알 수 있다.(분모의 크기가 더 커서 “1보다 작은 수가 나오는 경우는, 어차피 “1보다 큰 수가 나오는 경우와 동일함으로 생략한다)


 

그래서 두 집단의 분산을 서로 나눴을 때, 1에 가까운 수가 나올수록 두 집단의 분산은 크기가 매우 비슷하고, 1에서 멀리 떨어진 수가 나올수록 두 집단의 분산은 크기가 매우 다르다는 것을 알 수 있는데, 이렇게 두 분산의 나눗셈을 확률분포로 나타낸 것이 바로 F분포이다. 그리고 F분포에서는 숫자 1이 중요하기에, 그래프에서도 1의 위치를 파악하는 것이 중요하다.(그래프의 x축을 넓게 그렸는지아니면 좁게 그렸는지에 따라서, 1의 위치는 조금씩 달라질 수 있다)


 

그럼 그래프를 한 번 살펴보면, 숫자 1에 가까울수록(두 분산의 크기가 매우 비슷한 경우) 분포가 많고, 1에서 멀어질수록(두 분산의 크기가 매우 다른 경우) 분포가 감소하는 것을 알 수 있다. 왜냐하면 보통 실험을 할 때 서로 비슷하거나 관련이 있을 것 같은 집단끼리 비교를 하지, 전혀 관련 없는 집단끼리 비교하는 경우는 흔치 않다. 그래서 얼추 비슷한 집단끼리 비교를 많이 하기에, 두 분산의 차이는 그렇게 크지 않을 확률이 높다. 그래서 1 근처에 분포가 많이 몰려있다.


 

그런데 그래프에서 1을 기준으로, 오히려 왼쪽 면적에 분포가 더 많다. 그래서 이상하다고 생각할 수도 있는데, 이것은 위의 그래프가 표본의 수가 적을 때의 모양이라서 그렇다.(1을 기준으로 왼쪽 면적은, 나눗셈을 했을 때 분모의 크기가 더 커서 “1보다 작은 수가 나오는 경우이다) 그래서 표본의 수가 많아지면 그래프는 1을 중심으로, 위로 뾰족한 정규분포와 비슷해진다. 그래서 결국 나눗셈을 했을 때, 1에 가까울수록 분포가 많고, 1에서 멀어질수록 분포가 감소한다는 걸 알 수 있다.


 

참고로 F분포도 t분포와 카이제곱분포처럼 확률을 구할 때 사용하지 않고, 나중에 신뢰구간과 가설검정에서 사용하는 분포다. 특히 나중에 분산분석이라는 걸 하는데, 분산분석을 할 때 F분포를 사용한다. 그리고 이러한 분석을 할 때 그래프의 x축 좌표인 F을 활용하는데, F값은 보통 “F분포표를 사용해서 구한다. 그럼 다음 글에서는 F분포표에 대해서 알아보자.


'통계' 카테고리의 다른 글

신뢰구간이란?  (0) 2019.11.06
점추정과 구간추정이란?  (0) 2019.11.06
통계적 추정이란?  (1) 2019.11.06
F분포표 보는 법  (2) 2019.11.05
카이제곱분포표 보는 법  (3) 2019.11.04
카이제곱분포란?  (3) 2019.11.03
t분포표 보는 법  (0) 2019.11.02
t분포란?  (1) 2019.11.01