Certificate 106

[ADP 데이터분석 전문가- 통계편] 군집분석, DBSCAN, 혼합분포, GMM, eps

목차DBSCANDensity based Spatial Clustering of Application with Noise밀도 기반 군집화의 대표 알고리즘으로 데이터 분포가 기하학적으로 복잡한 데이터 세트에 효과적임높은 밀도의 데이터 포인트의 군집을 형성하고, 밀도 낮은 지역은 노이즈 처리입실론 주변 영역의 최소 데이터 개수를 포함하는 밀도 기준을 충족시키는 데이터인 핵심 포인트를 연결하면서 군집화를 구성하는 방식알고리즘이 클러스터 개수 자동 지정입실론 eps : 주변 영역의 반경(얼마나 가까운 얘들을 같은 클러스터로 묶을 것인가) Min Pts : 해당 영역 내에 존재하는 최소 데이터 포인트 수 (적어도 몇 개 이상을 하나의 클러스터로 묶겠다는 뜻) 나머지 : 노이즈 처리 핵심 포인트이웃 포인트경계 포인트..

Certificate/ADP 2023.10.25

[ADP 데이터분석 전문가- 통계편] 군집분석, 계층적 군집분석, 최단, 평균, 와드 연결법, 비계층적 군집분석, kmeans, calinski-harabasz, elbow, inertia, 실루엣스코어

목차군집분석각 개체의 유사성을 측정하여 유사성이 높은 대상집단을 분류한다.군집 내 유사성은 높고, 타군집과 상이하다.비지도학습특징이상값 탐지에 사용됨(분류분석보다 효과가 좋다)정해진 하나의 답이 없어서, 분석가의 판단에 따라 선택하고 판단한다.---> 서술이 중요하다.데이터 탐색에 좋다.ex) XL, L, M, S - 여러 사람들을 어깨, 몸무게, 키 등을 기준으로 옷 사이즈를 알려줌 요인분석 vs 판별분석 비교요인분석 : 차원분석- PCA, FA: 여러 개의 차원을 공분산행렬을 이용해서 저차원으로 변환한다.판별분석 : 군집분석- 새로운 데이터를 어떠한 집단에 할당한다. 거리를 측정하는 방법관측 데이터 간 유사성이나 근접성을 거리로 판단하여 어느 군집으로 묶을지 판단한다.  유클리드 : 원형데이터표준화:..

Certificate/ADP 2023.10.25

[ADP 데이터분석 전문가- 통계편] 로지스틱 회귀분석, MLE(최대우도추정법), 오즈비, odds, logit, 혼동행렬, roc auc, 시각화

목차1. 로지스틱 회귀분석개념종속변수와 독립변수의 선형 결합으로 사건의 발생 가능성을 예측 - 확률문제를 해결하기 위해 사용특징종속변수: 범주형 데이터(보통 이산형)독립변수: 연속형 데이터(종속변수가 2개 이상이면 다항 로지스틱 회귀)분류기법 중 하나결과값으로 확률을 도출하고 싶을 때예시뉴스레터 구독 여부 Y , 뉴스레터 페이지에 고객이 얼마나 체류하는가 X scatterplot 시각화 -> 유의미한 insight가 없다 -> 문제를 해석할 수 있는 다른 수학적 방법 필요가정linearityindependentNo multicollinearityNo extreme outlier 방법MLE(Maximum likelihood estimation 최대 우도 추정법)확률문제로 해석: X가 주어진 상황에서 Y=1..

Certificate/ADP 2023.10.24

[ADP 데이터분석 전문가- 통계편] 다중선형회귀분석, multi linear regression, 다중공선성, vif, 허용오차, 원핫인코딩, 라벨인코딩, 변수선택법, 단계적선택법 코드, 실습

목차 1. 다중선형회귀분석 multilinear regression 2개 이상의 독립변수가 종속변수에 미치는 영향을 추정하는 통계기법 회귀식은 일반적으로 1차항으로 구성된 다항식 2. 검토사항 1. 데이터가 전제하는 가정을 만족하는가? 독립변수와 종속변수 간 선형성 오차의 정규성 오차의 등분산성 오차의 독립성 2. 회귀모델이 통계적으로 유의한가? (F통계량) H0: 회귀모델이 유의하지 않다. H1: 회귀모델이 유의하다. 3. 모델은 데이터를 얼마나 설명하는가? 수정된 결정계수 확인 4. 모델 내의 회귀계수는 유의한가? (T통계량) 모든 회귀계수가 유의한지 검정한 후, 해당 회귀계수로 식을 만들어 해석하기 5. 모델이 데이터를 잘 적합하는가? 모형의 잔차와 종속변수에 대한 산점도를 그리고 회귀진단하여 판단..

Certificate/ADP 2023.10.24

[ADP 데이터분석 전문가- 통계편] simple linear regression 선형회귀분석, 가정, 모델 분석과 평가

목차 1. 회귀분석 - 독립변수가 1개: 단순 선형 회귀분석 - 독립변수가 2개 이상: 다중 선형 회귀분석 * 문제 주거공간(sqft_living)을 독립변수, 가격(price)을 종속변수로 설정하여 단순 선형 회귀분석을 실시한 후, 추정된 모형을 해석하기 ★ 종속변수 분포 ★ pairplot 그려서 두 변수 간의 상관관계 살펴보기 ★ ols OLS(Ordinary Least Squares estimation technique) 최소제곱추정량 SSR(Sum of Squared REsiduals)이 최소가 되도록 선형회귀 모델의 파라미터를 측정하는 방법 # OLS 모델 만들기 import statsmodels.api as sm from statsmodels.formula.api import ols form..

Certificate/ADP 2023.10.23