데이터분석 15

[ADP 데이터분석 전문가- 통계편] 로지스틱 회귀분석, MLE(최대우도추정법), 오즈비, odds, logit, 혼동행렬, roc auc, 시각화

목차 1. 로지스틱 회귀분석 개념 종속변수와 독립변수의 선형 결합으로 사건의 발생 가능성을 예측 - 확률문제를 해결하기 위해 사용 특징 종속변수: 범주형 데이터(보통 이산형) 독립변수: 연속형 데이터(종속변수가 2개 이상이면 다항 로지스틱 회귀) 분류기법 중 하나 결과값으로 확률을 도출하고 싶을 때 예시 뉴스레터 구독 여부 Y , 뉴스레터 페이지에 고객이 얼마나 체류하는가 X scatterplot 시각화 -> 유의미한 insight가 없다 -> 문제를 해석할 수 있는 다른 수학적 방법 필요 가정 linearity independent No multicollinearity No extreme outlier 방법 MLE(Maximum likelihood estimation 최대 우도 추정법) 확..

Certificate/ADP 2023.10.24

[ADP 데이터분석 전문가- 통계편] 다중선형회귀분석, multi linear regression, 다중공선성, vif, 허용오차, 원핫인코딩, 라벨인코딩, 변수선택법, 단계적선택법 코드, 실습

목차 1. 다중선형회귀분석 multilinear regression 2개 이상의 독립변수가 종속변수에 미치는 영향을 추정하는 통계기법 회귀식은 일반적으로 1차항으로 구성된 다항식 2. 검토사항 1. 데이터가 전제하는 가정을 만족하는가? 독립변수와 종속변수 간 선형성 오차의 정규성 오차의 등분산성 오차의 독립성 2. 회귀모델이 통계적으로 유의한가? (F통계량) H0: 회귀모델이 유의하지 않다. H1: 회귀모델이 유의하다. 3. 모델은 데이터를 얼마나 설명하는가? 수정된 결정계수 확인 4. 모델 내의 회귀계수는 유의한가? (T통계량) 모든 회귀계수가 유의한지 검정한 후, 해당 회귀계수로 식을 만들어 해석하기 5. 모델이 데이터를 잘 적합하는가? 모형의 잔차와 종속변수에 대한 산점도를 그리고 회귀진단하여 판단..

Certificate/ADP 2023.10.24

ADP 데이터분석 전문가 시험유형 분석과 공부방법, 응시 가이드, FAQ

목차 ADP 실기시험은 합격률이 3%가 되지 않을 정도로, 어려운 시험이다. 범위가 넓을 뿐만 아니라, 데이터분석 전반에 관하여 이해하고 있지 않다면 문제를 풀 수 없다. 기출문제로 유형을 익힐 수 있지만, 답을 외울 수는 없다. ADP 실기시험은 일년에 2번, 4시간, 오픈북 형태, 필기도구 지참은 불가능하고 인터넷 없이 컴퓨터 파일로 작성하여 pdf 형식으로 제출한다. 오픈북이 좋은 것 같지만, 오픈북으로 시험을 응시해도 떨어지는 수험생이 97%라고 하면 얼마나 어려운 시험인지 감이 올 것이다. 1. ADP 시험 유형 분석 총 2파트로 나뉜다. 머신러닝과 통계분석이다. 각각 50점이다. 1) 머신러닝 EDA> 전처리> 모델링> 해석 구조로 다소 정형화된 형태로 출제된다. 최근에는 EDA, 전처리 부분..

Certificate/ADP 2023.10.18

[Probability] python, scipy, statsmodels, hist, empirical rule, z-score, statz.zscore(), outlier

목차 1.통계 패키지 파이썬을 통계에서 하기 위해서는 두 가지 패키지를 설치한다. 1) Scipy 2) Statsmodels from scipy import stats import statsmodels.api as sm 데이터: 문맹률을 보여준다. overall_li가 해당 지역의 문맹률이다. 2. hist() 히스토그램 3. empirical rule 확인하기 68%, 95%, 99.7% ----> 1SD, 2SD, 3SD 1) 평균과 표준편차를 구한다. 2) 1SD 74-10 ~ 74+10 = 64~ 84 전체의 68%일까를 확인해보자. lower_limit = mean_overall_li - 1 * std_overall_li upper_limit = mean_overall_li + 1 * std_o..

태블로 이용해서 데이터 시각화하기- 서울시 공공 자전거 대여 관련 데이터

목차 1. 요구사항 파악하기 - 요구자: 공공 대여 자전거 수리 담당자 - 요구사항: 자전거 보수 작업을 하기 위한 시간을 알고자 함 - 세부사항 1) 자전거 대여 수가 적은 시간 2) 가능한 표준근무시간(오전8시~오후5시) 사이 - 필요 데이터 : 2018년도 서울 자전거 대여 데이터셋 2. tableau 로그인 후, 새로 만들기, 데이터 업로드 3. 데이터 파악하기 Date, Hour, Rented Bike Count 열을 살펴보자. 이미 데이터 전처리가 끝난 상황이다. Date: 2017년도의 12월부터 2018년도 11월까지 매일의 데이터를 Hour: 하루 24시간 동안 구분하여 Season: 계절별로 Rented Bike Count: 각 시간 단위로 몇 대의 자전거가 대여되었는지 확인한다. ※ ..