Cute Hello Kitty 3
본문 바로가기

전체 글24

회귀 모델 성능 평가: Breusch-Pagan 검정, Durbin-Watson 검정, ANOVA 회귀모델을 만들고 나면, 단순히 R²만 보고 끝내면 안 됩니다.모델이 통계적 가정을 얼마나 잘 만족하는지, 그리고 더 나은 모델이 있는지 비교해봐야 합니다. 잔차의 등분산성 검정: Breusch-Pagan 검정잔차의 자기상관 검정: Durbin-Watson 검정종속변수가 추가된 모델이 더 좋은지 검정: ANOVA 모델 비교  실습 준비: iris 데이터 불러오기import pandas as pdimport statsmodels.api as smimport statsmodels.formula.api as smfimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisplt.rcParams['font.family'] = 'Malgun Goth.. 2025. 4. 14.
T-검정과 F-검정 / 독립 표본 t 검정 / 대응 표본 t 검정 / Python 예제 / 시각화 데이터 분석에서 그룹 간 평균 차이가 통계적으로 유의한지 확인하고 싶을 때, 우리는 보통 t-검정을 사용합니다. 그리고 그룹 간 분산이 같은지 여부를 판단할 땐 F-검정을 사용합니다. 이 글에서는 Python을 활용하여 다양한 유형의 t-검정과 F-검정을 예제와 함께 시각화하며 정리하겠습니다.2025.04.03 - [Data] - LS 빅데이터 스쿨 / 정규분포와 t분포 / Python LS 빅데이터 스쿨 / 정규분포와 t분포 / Python가설검정이란?가설검정(Hypothesis Testing)은 통계학에서 어떤 주장이나 가설이 옳은지를 데이터 기반으로 판단하는 절차입니다. 주어진 데이터로부터 모집단의 특성을 추정하고, 이 추정값을 바탕kiminchae.tistory.comT분포에 대해서 자세하게 살펴.. 2025. 4. 10.
공분산, 상관계수, 다중선형회귀, 잔차의 등분산성, 잔차의 정규성 (Python) 1. 공분산 (Covariance) 이란?두 변수가 같은 방향으로 움직이는지를 수치로 나타낸 것 공분산이 양수: 한 변수가 증가할 때 다른 변수도 증가공분산이 음수: 한 변수가 증가할 때 다른 변수는 감소공분산이 0에 가까움: 서로 무관import numpy as np# 두 변수 X, YX = np.array([1, 2, 3, 4, 5])Y = np.array([2, 4, 6, 8, 10])# 공분산 계산cov_matrix = np.cov(X, Y)print("공분산 행렬:\n", cov_matrix)print("공분산 값:", cov_matrix[0, 1]) 2. 상관계수 ( Correlation Coefficient )공분산의 크기를 표준화한 값. 두 변수의 관계 정도를 -1에서 1 사이 값으로 표현.. 2025. 4. 9.
비모수 검정 모수 검정 비교 / 윌콕슨 순위합 검정 / 맨휘트니 U 검정 / 브루너 문젤 검정 / 크루스칼 왈리스 검정 LS 빅데이터 스쿨에서 비모수 검정에 대해 배웠습니다.  비모수 검정이란?비모수 검정은 데이터가 특정 분포(예: 정규분포)를 따른다는 가정을 하지 않고도중앙값 또는 순위 기반으로 집단 간 차이를 검정하는 방법입니다. 언제 사용?사용해야 하는 상황이유정규성 가정이 깨졌을 때평균 대신 중앙값이나 순위를 비교표본의 수가 작고 이상치가 많을 때평균이 왜곡되기 쉬움등분산성도 만족하지 않을 때모수 검정(ANOVA, t-test 등)이 부적합즉, 모수 검정을 할 수 없을 때 사용합니다.표본의 수가 적어서 중심극한정리가 적용되지 않을 때, 이상치가 많을 때,평균 개념이 성립하지 않을 때 주로 사용합니다. 2025.04.04 - [Data] - LS 빅데이터 스쿨 / 정규성 검정 / Shapiro-Wilk / Ander.. 2025. 4. 8.
사후 검정 / 본페로니 검정 / 튜키 검정 / Post-hoc Test 왜 사후검정이 필요할까? 분산분석(ANOVA)은 평균 차이가 "어디선가" 유의미하게 난다는 건 알려주지만,"어디 그룹끼리?", 즉 구체적으로 어떤 그룹 간에 차이가 있는지는 알려주지 않습니다.그래서 등장하는 것이 바로 사후검정(Post-hoc Test)! 예시지역 A, B, C에서 커피 소비량을 조사했더니 ANOVA 결과가 유의미했다고 합시다.그럼 이제 질문은?"A랑 B가 차이가 나?","A랑 C는 어때?","B랑 C는??"➡️ 이렇게 모든 그룹쌍을 비교해봐야 하는데,그냥 다 t-test 하면 1종 오류(Type I Error)가 엄청나게 쌓임. 용어 설명용어의미1종 오류귀무가설이 맞는데도 기각함 (FP)2종 오류귀무가설이 틀렸는데도 채택함 (FN)검정력대립가설이 맞을 때, 귀무가설을 올바르게 기각하는 .. 2025. 4. 8.
머신러닝 입문 / 회귀분석 / 미분 / 경사하강법 / 지역 최소값 문제 머신러닝을 처음 배우면 가장 먼저 마주하는 개념 중 하나가 회귀분석(Regression Analysis) 입니다. 데이터를 이용해 최적의 예측 모델을 찾는 과정입니다. 이때 중요한 도구가 미분(도함수) 그리고 경사하강법(Gradient Descent) 입니다.오늘은 이에 대해 자세히 살펴보겠습니다. 1. 함수와 그래프, 그리고 기울기먼저 간단한 함수 $f(x) = x^2$ 를 생각해볼게요. 이 함수는 아래처럼 U자 형태의 그래프를 가집니다.import numpy as npimport matplotlib.pyplot as pltdef my_f(x): return x**2sample = np.linspace(-10, 10, 100)f_x = my_f(sample)plt.plot(sample, f_x, .. 2025. 4. 8.