Cute Hello Kitty 3
본문 바로가기

분류 전체보기24

분산분석(ANOVA) / 수치형 데이터 비교 분석 / 카이제곱 검정과의 차이점 LS 빅데이터 스쿨에서 분산분석에 대해 배웠습니다.저번 시간에는 범주형 변수 분석에 유용한 카이제곱 검정에 대해 배웠으니, 이번 시간에는 수치형 데이터를 분석에 사용하는 분산분석에 대해 알아보겠습니다. 분산분석(ANOVA) 개념ANOVA (Analysis of Variance), 우리말로는 분산분석이라고 합니다.한마디로 말하면:“3개 이상의 그룹 간 평균 차이가 유의미한가?”를 한 번의 검정으로 확인하는 통계 기법입니다. 왜 ANOVA를 사용하는가?보통 평균 비교는 두 그룹이라면 t-test로 충분합니다.하지만 세 그룹 이상이 되면?그룹 A, B, C의 평균이 같은지 확인하려면A vs BB vs CA vs C→ 총 3번의 t검정 필요→ 유의수준이 깨져서 오류 가능성 증가그래서 이럴 땐 ANOVA로 한 번.. 2025. 4. 7.
카이제곱(Chi-Square) 검정 / 범주형 데이터 분석 / 독립성 검정 / 동질성 검정 / 적합도 검정 카이제곱(Chi-Square) 검정통계 분석에서 우리가 다루는 데이터는 꼭 숫자만 있는 게 아닙니다.“성별과 제품 선호도는 관련이 있을까?”처럼 범주형 데이터 간의 관계를 분석하고 싶을 때가 있죠.이럴 때 바로 필요한 게 카이제곱(χ²) 검정입니다. 카이제곱 검정이란?관측된 데이터(Observed)가 기대되는 분포(Expected)와 얼마나 다른지를 검정하는 통계 방법입니다.주로 범주형 데이터에 사용되며, 다음과 같은 경우에 많이 쓰입니다.상황목적예시독립성 검정두 범주형 변수 간 관계가 있는가?성별과 쇼핑몰 이용 여부가 관련이 있는가?적합도 검정데이터가 특정 분포를 따르는가?주사위를 60번 던졌을 때 눈이 고르게 나왔는가?동질성 검정여러 그룹이 같은 분포를 가지는가?지역별로 선호하는 음료수가 동일한 분포.. 2025. 4. 7.
정규성 검정 / Shapiro-Wilk / Anderson-Darling / Kolmogorov–Smirnov / Q-Q Plot 정규성 검정(Normality Test) 이란?정규성 검정은 데이터가 정규분포를 따르는지를 검정하는 과정입니다.많은 통계 기법(Z-test, t-test 등)은 정규분포를 전제로 하기 때문에, 분석 전에 정규성을 검정하는 것은 매우 중요합니다. 주요 정규성 검정 방법방법특징추천 상황Shapiro-Wilk소표본에 적합, 널리 사용됨n ≤ 50에 특히 강력Anderson-Darling분포의 꼬리까지 민감정밀한 정규성 검정 필요 시Kolmogorov–Smirnov이론 분포와의 차이 검정대체로 덜 민감, 일반적인 확인용Q-Q Plot시각적 확인간단한 탐색적 분석 시  ✍️ 실전 팁여러 정규성 검정을 함께 사용하는 것이 좋다.QQ Plot 을 통해 시각적으로 먼저 확인 한 뒤, 추가 검정을 수행한다.정규성이 없다.. 2025. 4. 4.
정규분포와 t분포 / Python 가설검정이란?가설검정(Hypothesis Testing)은 통계학에서 어떤 주장이나 가설이 옳은지를 데이터 기반으로 판단하는 절차입니다. 주어진 데이터로부터 모집단의 특성을 추정하고, 이 추정값을 바탕으로 기존에 세운 주장(귀무가설)이 타당한지를 검정합니다.절차1.귀무가설(H0) 설정: 기존의 주장 혹은 변화가 없다는 가정2.대립가설(H1) 설정: 새롭게 주장하고 싶은 가정3.검정통계량 계산: 관측된 데이터로부터 검정통계량을 구함4.p-value 계산: 귀무가설 하에서 관측값보다 극단적인 결과가 나올 확률5.판단: p-value가 유의수준보다 작으면 귀무가설 기각정규분포와 t분포정규분포 (Normal Distribution)연속확률분포의 대표적인 분포평균 μ, 표준편차 σ를 모수로 가짐중앙에 봉우리가 있.. 2025. 4. 3.
확률질량함수(PMF), 확률밀도함수(PDF), 누적분포함수(CDF) 확률질량함수(PMF), 확률밀도함수(PDF), 누적분포함수(CDF)확률분포를 다룰 때, 자주 헷갈리는 두 개념이 바로 확률질량함수(PMF)와 확률밀도함수(PDF)입니다.두 개념은 비슷해 보이지만 이산형 변수와 연속형 변수를 구분하여 사용해야 하며, 의미와 사용 방법도 크게 다릅니다.    핵심 차이 요약항목확률질량함수 (PMF)확률밀도함수 (PDF)적용 대상이산 확률 변수연속 확률 변수예시주사위, 동전, 학생 수키, 몸무게, 시간정의특정 값 $x$가 나올 확률을 직접 계산특정 구간 $(a \le X \le b)$에 속할 확률을 계산수식$P(X = x)$$P(a \le X \le b) = \int_a^b f(x)dx$특징각 값의 확률을 더하면 1전체 면적(적분값)이 1그래프 형태막대 그래프 (discret.. 2025. 3. 27.
이항 분포 예제로 이해하기 with python 오늘은 문제 풀이를 통해 이항 분포에 대해 접했습니다.처음 접한 개념이라 생소했지만, 실제 문제를 통해 이해하니 보다 쉽게 이해할 수 있었습니다.이항분포에 대해 알아보고 이를 파이썬 코드로 시각화 하는 연습을 해보겠습니다.1. 이항분포란?이항분포(binomial distribution)란 두 가지 결과만 나오는 실험을 여러 번 했을 때,특정한 결과가 나오는 확률을 나타내는 분포이다.여기서 "두 가지 결과만 나오는 실험"이란 성공/실패, 정답/오답, 앞면/뒷면 같은 경우를 말합니다. 예시 1: 동전 던지기예를 들어, 공정한 동전을 10번 던졌을 때 앞면이 5번 나올 확률을 구하려면 이항분포를 사용할 수 있습니다. 동전을 던질 때마다 결과는 앞면(성공) 또는 뒷면(실패) 두 가지뿐이기 때문이다. 예시 2: .. 2025. 3. 25.