Cute Hello Kitty 3
본문 바로가기
Data/통계

이항 분포 예제로 이해하기 with python

by 민 채 2025. 3. 25.

오늘은 문제 풀이를 통해 이항 분포에 대해 접했습니다.

처음 접한 개념이라 생소했지만, 실제 문제를 통해 이해하니 보다 쉽게 이해할 수 있었습니다.

이항분포에 대해 알아보고 이를 파이썬 코드로 시각화 하는 연습을 해보겠습니다.



1. 이항분포란?

이항분포(binomial distribution)란 두 가지 결과만 나오는 실험을 여러 번 했을 때,

특정한 결과가 나오는 확률을 나타내는 분포이다.

여기서 "두 가지 결과만 나오는 실험"이란 성공/실패, 정답/오답, 앞면/뒷면 같은 경우를 말합니다.

 

예시 1: 동전 던지기

예를 들어, 공정한 동전을 10번 던졌을 때 앞면이 5번 나올 확률을 구하려면 이항분포를 사용할 수 있습니다. 동전을 던질 때마다 결과는 앞면(성공) 또는 뒷면(실패) 두 가지뿐이기 때문이다.

 

예시 2: 농구 자유투

농구 선수 A가 자유투를 던질 때, 성공할 확률이 80%라고 가정해 봅시다. 이 선수가 5번 던졌을 때, 3번 성공할 확률을 계산할 때도 이항분포를 이용할 수 있습니다.



2. 이항 분포의 조건

이항분포를 사용하려면 다음 네 가지 조건을 만족해야 합니다.

  1. 독립적인 시행: 각 시행(실험)은 서로 영향을 주지 않아야 합니다. 예를 들어, 동전 던지기는 앞에서 나온 결과가 다음 결과에 영향을 주지 않으니까 독립적이라고 할 수 있습니다.
  2. 성공과 실패 두 가지 결과만 가능: 실험의 결과가 두 가지(예: 성공/실패, 앞면/뒷면)로 나뉘어야 합니다.
  3. 각 시행에서 성공할 확률이 일정함: 매번 실험을 할 때 성공할 확률이 변하지 않아야 합니다.
  4. 정해진 횟수만큼 실험을 수행: 몇 번 실험할지 정해져 있어야 합니다.

 

3. 이항분포의 확률 공식

이항분포에서 특정한 성공 횟수(k)가 나올 확률을 구하는 공식은 다음과 같습니다.

$$P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}$$

  • $n$: 시행 횟수
  • $k$: 성공 횟수
  • $p$: 성공 확률
  • $1-p$: 실패 확률
  • $ \binom{n}{k}$: n개 중 k개를 고르는 조합의 수

공식으로만 보면 이해가 어렵기 때문에 예제 문제를 통해 살펴봅시다.

 

문제: 상금 지급 기금의 최대 지급액 분석

어떤 학교는 특정한 성취를 달성한 학생에게 상금(C)를 지급하기 위해 120만원의 기금을 마련했습니다. 이 학교의 학생 20명 중 각 학생이 다음 해에 성취를 달성할 확률은 2%입니다. 서로 다른 학생이 성취를 달성하는 사건은 상호 독립적입니다.

기금이 모든 성취에 대한 지급을 충당하지 못할 확률이 1% 미만이 되도록 하는 (C)의 최대 값을 계산하세요.

 

📌 문제 이해하기

학교에서는 특정 성취를 달성한 학생에게 상금을 지급합니다.

하지만 준비된 기금(1,200,000원)이 모든 학생에게 지급되도록 보장해야 합니다.

  • 학생 수: $ n=20 $
  • 성취할 확률: $ p=0.02$ (각 학생이 성취할 확률)
  • 기금: 1,200,000원
  • 목표: 지급해야 하는 상금의 최대값을 찾아야 함.
  • 조건: 기금이 부족할 확률이 1% 미만이어야 함.

 

📌 문제 풀이

이 문제는 기금을 지급하지 못 할 확률이 1% 미만이 되도록 하는 문제입니다.

기금이 부족할 확률이 1% 미만이어야 하므로,

$$ P(X>k)<0.01 $$

위 식이 성립하는 k를 찾아야 합니다.

# 이항 분포 확률 계산 함수
def func(k):
    return sum(comb(n, i) * p ** i * (1 - p) ** (n - i) for i in range(k, 21))

이항분포 공식을 통해 계산해주는 python 코드입니다.

위 식에서 k가 1이라면?

  • 1명 이상 n(20)명 이하의 학생이 성취할 확률을 나타냅니다.
  • k가 2일 경우, 2명 이상 20명 이하의 학생이 성취할 확률입니다.

 

  • matplotlib 을 통해 위에서 만든 func를 시각화 해보았습니다.
  • 0명 이상 ~ 20명 이하의 학생이 성취할 확률은 1이고,
  • k명 이상 ~ 20명 이하의 학생이 성취할 때, k가 작아질수록 확률이 작아지는 것을 볼 수 있습니다.



 

  • 그래프를 보다 확대해서 보겠습니다.
  • 빨간 점선은, 문제의 조건인 실패할 확률 (0.01) 입니다.
  • 이처럼 그래프를 통해서도 k가 2와 3사이일 때 실패할 확률이 0.01이 된다는 것을 알 수 있습니다.

 

즉, 실패하지 않을 경우에서 k의 최대값은 2이므로, 기금은 각 60만원씩 나눌 수 있습니다.

 

 

2025.03.27 - [Data] - LS 빅데이터 스쿨 / 확률질량함수(PMF), 확률밀도함수(PDF), 누적분포함수(CDF)

 

LS 빅데이터 스쿨 / 확률질량함수(PMF), 확률밀도함수(PDF), 누적분포함수(CDF)

확률질량함수(PMF), 확률밀도함수(PDF), 누적분포함수(CDF)확률분포를 다룰 때, 자주 헷갈리는 두 개념이 바로 확률질량함수(PMF)와 확률밀도함수(PDF)입니다.두 개념은 비슷해 보이지만 이산형

kiminchae.tistory.com