예전에 다루었던 이항분포는 n이 크면 손으로 계산하기가 복잡해진다. 그래서 n이 크고 성공확률 p가 아주 작지 않을 경우에는 정규분포에 근사해서 확률을 구하기도 하는데, “이항분포의 확률을 정규분포를 사용해서 구하는 것”을 정규근사라고 한다. 하지만 요즘에는 “계산기”나 “통계프로그램”을 활용하면, n이 커도 쉽게 계산할 수 있기에, 정규근사의 활용도는 그렇게 높지가 않다. 그래서 그냥 이항분포와 정규분포 사이에 이런 관계도 있다는 것만 알고 넘어가도 된다.
일단 정규분포는 공식으로 Z값을 구하려면, 평균과 표준편차를 알아야 한다. 그래서 정규근사를 하려면 이항분포의 평균 np와 표준편차 루트np(1-p)를 구한 다음, 정규분포 공식에서 μ 대신 np를 대입하고, σ 대신 루트np(1-p)를 대입하면 된다.
그리고 공식을 보면 ±0.5가 있는데, 이것은 연속성수정이라고 한다. 정규근사로 문제를 풀 때 ±0.5를 해서 연속성수정을 하면, 하지 않았을 때보다 근사치의 값이 더 정확해지는데, 이산확률분포와 연속확률분포의 그래프를 서로 비교해보면, 각 그래프의 특성상 정확하게 겹치지가 않기 때문이다. 그래서 추가로 구하는 과정을 약간 수정한 것이다. 그럼 문제 하나를 풀어보자.(정규근사는 정규분포를 사용하기는 하지만, 기본적으로 이항분포의 문제라서 “횟수”가 중요하다. 그래서 “이하”와 “미만” 그리고 “이상”과 “초과”가 서로 다르므로, 이 부분도 신경 써줘야 한다)
1. 어느 공장에서 생산하는 제품의 불량률은 0.2라고 한다. 그럼 이 공장 제품 50개를 조사하였을 때, 불량품이 7개에서 10개 사이로 나올 확률을 구하시오.
정규근사를 하려면 일단 이항분포의 평균과 표준편차를 구해야 하는데, 먼저 평균은 np=50×0.2=10이 나오고, 분산은 np(1-p)=50×0.2×0.8=8이 나오는데, 루트를 씌워보면 표준편차는 루트 8이 나온다. 그다음 정규분포 공식을 사용해서 Z값을 구해보면 각각 -1.24와 0.18이 나오는데, 표준정규분포표(표)에서 해당하는 값을 찾은 다음, 확률을 구해보면 0.4639가 나온다.
그런데 정규근사도 포아송근사와 마찬가지로 단지 비슷한 근삿값이 나올 뿐, 이항분포로 풀었을 때와 같은 값이 나오지는 않는다. 그래서 만약 위의 문제를 이항분포로 푼다면 확률은 0.4801이 나오면서, 얼추 비슷하기는 하지만 정규근사의 근사치와는 약간 차이가 있다는 것을 알 수 있다.
참고로 ±0.5의 연속성수정을 안 했을 때는 확률이 0.3554가 나오는데, 이항분포의 확률과는 차이가 많이 나는 것을 알 수 있다. 그래서 정규근사를 할 때는, 연속성수정을 하는 것이 더 좋다.
'통계' 카테고리의 다른 글
카이제곱분포표 보는 법 (3) | 2019.11.04 |
---|---|
카이제곱분포란? (3) | 2019.11.03 |
t분포표 보는 법 (0) | 2019.11.02 |
t분포란? (1) | 2019.11.01 |
정규분포 문제풀이 (0) | 2019.10.31 |
표준정규분포표로 확률 구하는 법 (0) | 2019.10.31 |
정규분포 표준화하는 법 (0) | 2019.10.30 |
정규분포 그래프의 특징 (0) | 2019.10.30 |