오늘은 문제 풀이를 통해 이항 분포에 대해 접했습니다.
처음 접한 개념이라 생소했지만, 실제 문제를 통해 이해하니 보다 쉽게 이해할 수 있었습니다.
이항분포에 대해 알아보고 이를 파이썬 코드로 시각화 하는 연습을 해보겠습니다.
1. 이항분포란?
이항분포(binomial distribution)란 두 가지 결과만 나오는 실험을 여러 번 했을 때,
특정한 결과가 나오는 확률을 나타내는 분포이다.
여기서 "두 가지 결과만 나오는 실험"이란 성공/실패, 정답/오답, 앞면/뒷면 같은 경우를 말합니다.
예시 1: 동전 던지기
예를 들어, 공정한 동전을 10번 던졌을 때 앞면이 5번 나올 확률을 구하려면 이항분포를 사용할 수 있습니다. 동전을 던질 때마다 결과는 앞면(성공) 또는 뒷면(실패) 두 가지뿐이기 때문이다.
예시 2: 농구 자유투
농구 선수 A가 자유투를 던질 때, 성공할 확률이 80%라고 가정해 봅시다. 이 선수가 5번 던졌을 때, 3번 성공할 확률을 계산할 때도 이항분포를 이용할 수 있습니다.
2. 이항 분포의 조건
이항분포를 사용하려면 다음 네 가지 조건을 만족해야 합니다.
- 독립적인 시행: 각 시행(실험)은 서로 영향을 주지 않아야 합니다. 예를 들어, 동전 던지기는 앞에서 나온 결과가 다음 결과에 영향을 주지 않으니까 독립적이라고 할 수 있습니다.
- 성공과 실패 두 가지 결과만 가능: 실험의 결과가 두 가지(예: 성공/실패, 앞면/뒷면)로 나뉘어야 합니다.
- 각 시행에서 성공할 확률이 일정함: 매번 실험을 할 때 성공할 확률이 변하지 않아야 합니다.
- 정해진 횟수만큼 실험을 수행: 몇 번 실험할지 정해져 있어야 합니다.
3. 이항분포의 확률 공식
이항분포에서 특정한 성공 횟수(k)가 나올 확률을 구하는 공식은 다음과 같습니다.
$$P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}$$
- $n$: 시행 횟수
- $k$: 성공 횟수
- $p$: 성공 확률
- $1-p$: 실패 확률
- $ \binom{n}{k}$: n개 중 k개를 고르는 조합의 수
공식으로만 보면 이해가 어렵기 때문에 예제 문제를 통해 살펴봅시다.
문제: 상금 지급 기금의 최대 지급액 분석
어떤 학교는 특정한 성취를 달성한 학생에게 상금(C)를 지급하기 위해 120만원의 기금을 마련했습니다. 이 학교의 학생 20명 중 각 학생이 다음 해에 성취를 달성할 확률은 2%입니다. 서로 다른 학생이 성취를 달성하는 사건은 상호 독립적입니다.
기금이 모든 성취에 대한 지급을 충당하지 못할 확률이 1% 미만이 되도록 하는 (C)의 최대 값을 계산하세요.
📌 문제 이해하기
학교에서는 특정 성취를 달성한 학생에게 상금을 지급합니다.
하지만 준비된 기금(1,200,000원)이 모든 학생에게 지급되도록 보장해야 합니다.
- 학생 수: $ n=20 $
- 성취할 확률: $ p=0.02$ (각 학생이 성취할 확률)
- 기금: 1,200,000원
- 목표: 지급해야 하는 상금의 최대값을 찾아야 함.
- 조건: 기금이 부족할 확률이 1% 미만이어야 함.
📌 문제 풀이
이 문제는 기금을 지급하지 못 할 확률이 1% 미만이 되도록 하는 문제입니다.
기금이 부족할 확률이 1% 미만이어야 하므로,
$$ P(X>k)<0.01 $$
위 식이 성립하는 k를 찾아야 합니다.
# 이항 분포 확률 계산 함수
def func(k):
return sum(comb(n, i) * p ** i * (1 - p) ** (n - i) for i in range(k, 21))
이항분포 공식을 통해 계산해주는 python 코드입니다.
위 식에서 k가 1이라면?
- 1명 이상 n(20)명 이하의 학생이 성취할 확률을 나타냅니다.
- k가 2일 경우, 2명 이상 20명 이하의 학생이 성취할 확률입니다.
- matplotlib 을 통해 위에서 만든 func를 시각화 해보았습니다.
- 0명 이상 ~ 20명 이하의 학생이 성취할 확률은 1이고,
- k명 이상 ~ 20명 이하의 학생이 성취할 때, k가 작아질수록 확률이 작아지는 것을 볼 수 있습니다.
- 그래프를 보다 확대해서 보겠습니다.
- 빨간 점선은, 문제의 조건인 실패할 확률 (0.01) 입니다.
- 이처럼 그래프를 통해서도 k가 2와 3사이일 때 실패할 확률이 0.01이 된다는 것을 알 수 있습니다.
즉, 실패하지 않을 경우에서 k의 최대값은 2이므로, 기금은 각 60만원씩 나눌 수 있습니다.
2025.03.27 - [Data] - LS 빅데이터 스쿨 / 확률질량함수(PMF), 확률밀도함수(PDF), 누적분포함수(CDF)
LS 빅데이터 스쿨 / 확률질량함수(PMF), 확률밀도함수(PDF), 누적분포함수(CDF)
확률질량함수(PMF), 확률밀도함수(PDF), 누적분포함수(CDF)확률분포를 다룰 때, 자주 헷갈리는 두 개념이 바로 확률질량함수(PMF)와 확률밀도함수(PDF)입니다.두 개념은 비슷해 보이지만 이산형
kiminchae.tistory.com
'Data > 통계' 카테고리의 다른 글
카이제곱(Chi-Square) 검정 / 범주형 데이터 분석 / 독립성 검정 / 동질성 검정 / 적합도 검정 (1) | 2025.04.07 |
---|---|
정규성 검정 / Shapiro-Wilk / Anderson-Darling / Kolmogorov–Smirnov / Q-Q Plot (0) | 2025.04.04 |
정규분포와 t분포 / Python (0) | 2025.04.03 |
확률질량함수(PMF), 확률밀도함수(PDF), 누적분포함수(CDF) (0) | 2025.03.27 |
LS 빅데이터 스쿨 / 확률 변수와 확률 분포 (0) | 2025.03.24 |