Cute Hello Kitty 3
본문 바로가기

Data/머신러닝4

데이터 전처리 기법 알아보기 (python) 📌 1. 결측치 처리 (Missing Value Imputation)데이터 불러오기import pandas as pdimport numpy as npdat = pd.read_csv('https://raw.githubusercontent.com/YoungjinBD/data/main/dat.csv')y = dat.gradeX = dat.drop(['grade'], axis = 1)# 각 칼럼별 속성 확인print(X.info())print(y.info())# 결측치 확인print(dat.isna().sum(axis = 0))# 학습 데이터와 테스트 데이터 분리from sklearn.model_selection import train_test_splittrain_X, test_X, train_y, test_.. 2025. 5. 15.
회귀 모델 성능 평가: Breusch-Pagan 검정, Durbin-Watson 검정, ANOVA 회귀모델을 만들고 나면, 단순히 R²만 보고 끝내면 안 됩니다.모델이 통계적 가정을 얼마나 잘 만족하는지, 그리고 더 나은 모델이 있는지 비교해봐야 합니다. 잔차의 등분산성 검정: Breusch-Pagan 검정잔차의 자기상관 검정: Durbin-Watson 검정종속변수가 추가된 모델이 더 좋은지 검정: ANOVA 모델 비교  실습 준비: iris 데이터 불러오기import pandas as pdimport statsmodels.api as smimport statsmodels.formula.api as smfimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisplt.rcParams['font.family'] = 'Malgun Goth.. 2025. 4. 14.
공분산, 상관계수, 다중선형회귀, 잔차의 등분산성, 잔차의 정규성 (Python) 1. 공분산 (Covariance) 이란?두 변수가 같은 방향으로 움직이는지를 수치로 나타낸 것 공분산이 양수: 한 변수가 증가할 때 다른 변수도 증가공분산이 음수: 한 변수가 증가할 때 다른 변수는 감소공분산이 0에 가까움: 서로 무관import numpy as np# 두 변수 X, YX = np.array([1, 2, 3, 4, 5])Y = np.array([2, 4, 6, 8, 10])# 공분산 계산cov_matrix = np.cov(X, Y)print("공분산 행렬:\n", cov_matrix)print("공분산 값:", cov_matrix[0, 1]) 2. 상관계수 ( Correlation Coefficient )공분산의 크기를 표준화한 값. 두 변수의 관계 정도를 -1에서 1 사이 값으로 표현.. 2025. 4. 9.
머신러닝 입문 / 회귀분석 / 미분 / 경사하강법 / 지역 최소값 문제 머신러닝을 처음 배우면 가장 먼저 마주하는 개념 중 하나가 회귀분석(Regression Analysis) 입니다. 데이터를 이용해 최적의 예측 모델을 찾는 과정입니다. 이때 중요한 도구가 미분(도함수) 그리고 경사하강법(Gradient Descent) 입니다.오늘은 이에 대해 자세히 살펴보겠습니다. 1. 함수와 그래프, 그리고 기울기먼저 간단한 함수 $f(x) = x^2$ 를 생각해볼게요. 이 함수는 아래처럼 U자 형태의 그래프를 가집니다.import numpy as npimport matplotlib.pyplot as pltdef my_f(x): return x**2sample = np.linspace(-10, 10, 100)f_x = my_f(sample)plt.plot(sample, f_x, .. 2025. 4. 8.