파이썬 197

pandas 배우기 5편 모델 : 훈련, GridSearchCV, 하이퍼파라미터, 평가 : logisticRegression, RandomForest, XGBClassifier

머신러닝의 다양한 모델에 대해 알아보고, 훈련, 평가, Gridsearch를 이용한 최적의 파라미터 찾는 방법 등을 알아본다.    목차1. Model Building★  모델 설계 및 학습from sklearn.linear_model import LogisticRegressionlr = LogisticRegression()lr.fit(X_train, y_train)array([1., 1., 0., ..., 1., 1., 0.]) ★  예측y_pred = lr.predict(X_test)y_predarray([1., 1., 0., ..., 1., 1., 0.])  2. 피처 중요도1) feature importance 확인하기★  coef 절대값이 클 수록 해당 피처의 중요도 높음lr.coef_ : 회귀..

파이썬/판다스 2024.11.09

pandas 배우기 4편 데이터 전처리 : upsampling(업샘플링), outlier(이상치) , 상관관계, 차원변환

데이터 전처리 중 업샘플링, 이상치 탐지, 상관관계 분석, 머신러닝 모델에 입출력을 위한 차원변환에 대해 알아본다.   목차 1. 이상치1) 박스플롯 2) quantile25%위치 : quantile(0.25)75%위치 : quantile(0.75)# iqr = 75% - 25%percentile25 = data.video_like_count.quantile(0.25)percentile75 = data.video_like_count.quantile(0.75)iqr = percentile75 - percentile25# max = 75% +1.5*iqrup_limit  = percentile75 +1.5*iqr# 이상치처리data.loc[data.video_comment_count>up_limit,'vid..

파이썬/판다스 2024.11.08

pandas 배우기 3편 데이터시각화: 빅분기 ADP 데이터분석 시험, 파이차트, 히스토그램, 박스플랏, 스케터플랏,히트맵

데이터 시각화 위한 다양한 그래프와 구체적인 파라미터를 살펴본다. 목차1. pie 파이차트 1) 단일 파이차트autopct, startangle, legend, locclaim = data2.iloc[:3]opinion = data2.iloc[3:]import matplotlib.pyplot as pltplt.figure(figsize=(10, 5))plt.pie(claim['percent'], labels=claim['author_ban_status'], autopct='%1.2f%%', startangle=90)plt.legend(labels=claim['author_ban_status'], loc='best')plt.show()  2) subplot 그리기fig, ax = plt.subplots(1..

파이썬/판다스 2024.11.07

pandas 배우기 2편 데이터전처리 :빅분기 ADP 데이터분석 요약

이번 편에서는 pandas가지고 데이터전처리 하는 방법을 공부해본다. 빅분기 ADP 데이터분석 시험 공부 요약 이라고 생각하면 좋다. 시작해보자!   목차 1. null값1) null값 찾기★  isnull()  = isna() : Null인것이 True★  notnull() : NotNull인것이 True 2) 개수 구하기★ sum()axis = 0axis = 1 축의 방향에 따라 sum()의 값이 달라짐 3) 제거★ dropna()axis=0, axis=1 이냐에 따라 제거되는 방향이 달라진다. 기본은 axis=0이다. 누락 행을 삭제axis=1은 누락 열을 삭제 ★ subset= [컬럼이름] 전체가 아니라 특정 열만 한정하는 경우는 subset을 쓴다. ★ how = 'any', 'all' ?any..

파이썬/판다스 2024.10.11