[ADP 데이터분석 전문가- 통계편] 군집분석, DBSCAN, 혼합분포, GMM, eps

Certificate/ADP

Olivia-BlackCherry 2023. 10. 25. 23:52

DBSCAN

높은 밀도의 데이터 포인트의 군집을 형성하고, 밀도 낮은 지역은 노이즈 처리
입실론 주변 영역의 최소 데이터 개수를 포함하는 밀도 기준을 충족시키는 데이터인 핵심 포인트를 연결하면서 군집화를 구성하는 방식
알고리즘이 클러스터 개수 자동 지정
- 입실론 eps : 주변 영역의 반경(얼마나 가까운 얘들을 같은 클러스터로 묶을 것인가)
- Min Pts : 해당 영역 내에 존재하는 최소 데이터 포인트 수 (적어도 몇 개 이상을 하나의 클러스터로 묶겠다는 뜻)
- 나머지 : 노이즈 처리

핵심 포인트	이웃 포인트	경계 포인트	노이즈
주변 영역 내에 최소 데이터 개수 이상의 타 데이터를 가진 경우	주변 영역 내에 위치한 타데이터	주변 영역 내에 최소 데이터 개수 이상의 이웃 포인트를 가지고 있지는 않지만, 핵심 포인트를 이웃 포인트로 가지고 있는 데이터	최소 데이터 개수 이상의 이웃 포인트도 없고, 핵심포인트도 이웃포인트가 아닌 데이터

<실습>

모델생성

시각화

사용하는 이유
- 실생활 데이터에 적용시키기 위함
- 대부분의 실생활 데이터는 정규분포 형태이기 때문
EM알고리즘 사용(Expectation and Maximization) : 최대가능도(liklihood)가 최대인가?
설명할 수 있는 데이터의 형태: 다봉형(실생활데이터가 많이 취하는 모양)
장점
- 확률분포를 도입했기 때문에 kmeans보다 통계적으로 엄밀한 결과를 얻을 수 있음
- 군집을 몇 개의 모수로 표현할 수 있고, 서로 다른 크기나 모양의 군집을 찾을 수 있음
- kmeans보다 유연하게 다양한 데이터세트에 잘 적용됨
- Kmeans는 원형 형태의 데이터에서는 군집을 잘하지만, 길쭉한 타원형 등의 데이터에서는 잘 못하기 때문
단점
- 군집의 크기가 너무 작으면 추정의 정도가 떨어짐
- 데이터가 커지면 EM 알고리즘 적용시 시간/계송비용 증가
- 이상치 처리를 잘해야 함
- 유형들의 분포가 정규분포와 차이가 크면 결과가 좋지 못하다.
- 몇 개의 확률분포를 혼합할 것인지 사용자가 지정하면 그 개수에 맞춰서 모델이 만들어짐

<실습>

데이터 정규화

가우시안 혼합모델 구축

- n_components 모델의 총 개수(사용자 설정)

시각화

[ADP 데이터분석 전문가- 통계편] 연관분석, run-test, 장바구니분석, apriori, transaction encoder, 연관규칙분석, 향상도, 지지도, 신뢰도 (1)	2023.10.26
[ADP 데이터분석 전문가- 통계편] 군집분석, SOM, 자기조직화지도, Map, m, n, dim, 오분류표, confusion matrix (1)	2023.10.26
[ADP 데이터분석 전문가- 통계편] 군집분석, 계층적 군집분석, 최단, 평균, 와드 연결법, 비계층적 군집분석, kmeans, calinski-harabasz, elbow, inertia, 실루엣스코어 (0)	2023.10.25
[ADP 데이터분석 전문가- 통계편] 로지스틱 회귀분석, MLE(최대우도추정법), 오즈비, odds, logit, 혼동행렬, roc auc, 시각화 (0)	2023.10.24
[ADP 데이터분석 전문가- 통계편] 다중선형회귀분석, multi linear regression, 다중공선성, vif, 허용오차, 원핫인코딩, 라벨인코딩, 변수선택법, 단계적선택법 코드, 실습 (0)	2023.10.24