데이터분석 16

pandas 배우기 5편 모델 : 훈련, GridSearchCV, 하이퍼파라미터, 평가 : logisticRegression, RandomForest, XGBClassifier

머신러닝의 다양한 모델에 대해 알아보고, 훈련, 평가, Gridsearch를 이용한 최적의 파라미터 찾는 방법 등을 알아본다.    목차1. Model Building★  모델 설계 및 학습from sklearn.linear_model import LogisticRegressionlr = LogisticRegression()lr.fit(X_train, y_train)array([1., 1., 0., ..., 1., 1., 0.]) ★  예측y_pred = lr.predict(X_test)y_predarray([1., 1., 0., ..., 1., 1., 0.])  2. 피처 중요도1) feature importance 확인하기★  coef 절대값이 클 수록 해당 피처의 중요도 높음lr.coef_ : 회귀..

파이썬/판다스 2024.11.09

[ADP 데이터분석 전문가- 통계편] 로지스틱 회귀분석, MLE(최대우도추정법), 오즈비, odds, logit, 혼동행렬, roc auc, 시각화

목차1. 로지스틱 회귀분석개념종속변수와 독립변수의 선형 결합으로 사건의 발생 가능성을 예측 - 확률문제를 해결하기 위해 사용특징종속변수: 범주형 데이터(보통 이산형)독립변수: 연속형 데이터(종속변수가 2개 이상이면 다항 로지스틱 회귀)분류기법 중 하나결과값으로 확률을 도출하고 싶을 때예시뉴스레터 구독 여부 Y , 뉴스레터 페이지에 고객이 얼마나 체류하는가 X scatterplot 시각화 -> 유의미한 insight가 없다 -> 문제를 해석할 수 있는 다른 수학적 방법 필요가정linearityindependentNo multicollinearityNo extreme outlier 방법MLE(Maximum likelihood estimation 최대 우도 추정법)확률문제로 해석: X가 주어진 상황에서 Y=1..

Certificate/ADP 2023.10.24

[ADP 데이터분석 전문가- 통계편] 다중선형회귀분석, multi linear regression, 다중공선성, vif, 허용오차, 원핫인코딩, 라벨인코딩, 변수선택법, 단계적선택법 코드, 실습

목차 1. 다중선형회귀분석 multilinear regression 2개 이상의 독립변수가 종속변수에 미치는 영향을 추정하는 통계기법 회귀식은 일반적으로 1차항으로 구성된 다항식 2. 검토사항 1. 데이터가 전제하는 가정을 만족하는가? 독립변수와 종속변수 간 선형성 오차의 정규성 오차의 등분산성 오차의 독립성 2. 회귀모델이 통계적으로 유의한가? (F통계량) H0: 회귀모델이 유의하지 않다. H1: 회귀모델이 유의하다. 3. 모델은 데이터를 얼마나 설명하는가? 수정된 결정계수 확인 4. 모델 내의 회귀계수는 유의한가? (T통계량) 모든 회귀계수가 유의한지 검정한 후, 해당 회귀계수로 식을 만들어 해석하기 5. 모델이 데이터를 잘 적합하는가? 모형의 잔차와 종속변수에 대한 산점도를 그리고 회귀진단하여 판단..

Certificate/ADP 2023.10.24

ADP 데이터분석 전문가 시험유형 분석과 공부방법, 응시 가이드, FAQ

목차 ADP 실기시험은 합격률이 3%가 되지 않을 정도로, 어려운 시험이다. 범위가 넓을 뿐만 아니라, 데이터분석 전반에 관하여 이해하고 있지 않다면 문제를 풀 수 없다. 기출문제로 유형을 익힐 수 있지만, 답을 외울 수는 없다. ADP 실기시험은 일년에 2번, 4시간, 오픈북 형태, 필기도구 지참은 불가능하고 인터넷 없이 컴퓨터 파일로 작성하여 pdf 형식으로 제출한다. 오픈북이 좋은 것 같지만, 오픈북으로 시험을 응시해도 떨어지는 수험생이 97%라고 하면 얼마나 어려운 시험인지 감이 올 것이다. 1. ADP 시험 유형 분석 총 2파트로 나뉜다. 머신러닝과 통계분석이다. 각각 50점이다. 1) 머신러닝 EDA> 전처리> 모델링> 해석 구조로 다소 정형화된 형태로 출제된다. 최근에는 EDA, 전처리 부분..

Certificate/ADP 2023.10.18

[Probability] python, scipy, statsmodels, hist, empirical rule, z-score, statz.zscore(), outlier

목차 1.통계 패키지 파이썬을 통계에서 하기 위해서는 두 가지 패키지를 설치한다. 1) Scipy 2) Statsmodels from scipy import stats import statsmodels.api as sm 데이터: 문맹률을 보여준다. overall_li가 해당 지역의 문맹률이다. 2. hist() 히스토그램 3. empirical rule 확인하기 68%, 95%, 99.7% ----> 1SD, 2SD, 3SD 1) 평균과 표준편차를 구한다. 2) 1SD 74-10 ~ 74+10 = 64~ 84 전체의 68%일까를 확인해보자. lower_limit = mean_overall_li - 1 * std_overall_li upper_limit = mean_overall_li + 1 * std_o..