Certificate/ADP

[ADP 데이터분석 전문가- 통계편] 군집분석, DBSCAN, 혼합분포, GMM, eps

Olivia-BlackCherry 2023. 10. 25. 23:52

목차

    DBSCAN

    • Density based Spatial Clustering of Application with Noise
    • 밀도 기반 군집화의 대표 알고리즘으로 데이터 분포가 기하학적으로 복잡한 데이터 세트에 효과적임

    • 높은 밀도의 데이터 포인트의 군집을 형성하고, 밀도 낮은 지역은 노이즈 처리
    • 입실론 주변 영역의 최소 데이터 개수를 포함하는 밀도 기준을 충족시키는 데이터인 핵심 포인트를 연결하면서 군집화를 구성하는 방식
    • 알고리즘이 클러스터 개수 자동 지정
      • 입실론 eps : 주변 영역의 반경(얼마나 가까운 얘들을 같은 클러스터로 묶을 것인가)
      •  Min Pts : 해당 영역 내에 존재하는 최소 데이터 포인트 수 (적어도 몇 개 이상을 하나의 클러스터로 묶겠다는 뜻) 
      • 나머지 : 노이즈 처리 

    핵심 포인트 이웃 포인트 경계 포인트 노이즈
    주변 영역 내에 최소  데이터 개수 이상의 타 데이터를 가진 경우 주변 영역 내에 위치한 타데이터 주변 영역 내에 최소 데이터 개수 이상의 이웃 포인트를 가지고 있지는 않지만, 핵심 포인트를 이웃 포인트로 가지고 있는 데이터 최소 데이터 개수 이상의 이웃 포인트도 없고, 핵심포인트도 이웃포인트가 아닌 데이터

     

     

     

    <실습>

    모델생성

     

    시각화

     

     

     

    GMM(Gaussian Mixture Model)

    • 혼합분포군집
      • 모형(model) 기반 군집방법
      • GMM 군집화는 군집화를 적용하고자 하는 데이터가 여러 개의 가우시안분포(정규분포)를 가진 데이터 집합들이 섞여서 생성된 것이라는 가정하에 군집화 수행하는 방식
      • 100개의 데이터세트가 있다면 이를 구성하는 여러 개의 정규 분포 곡선을 추출하고, 개별 데이터가 이 중 어떤 정규분포에 속하는지 결정하는 방식 
        • 모수 추정
        •    1) 개별 정규 분포의 평균과 분산
        •    2) 각 데이터가 어떤 정규분포에 해당하는지의 확률

    출처: 07-04. GMM(Gaussian Mixture Model) (velog.io)

    • 사용하는 이유
      • 실생활 데이터에 적용시키기 위함
      • 대부분의 실생활 데이터는 정규분포 형태이기 때문
    • EM알고리즘 사용(Expectation and Maximization) : 최대가능도(liklihood)가 최대인가?
    • 설명할 수 있는 데이터의 형태: 다봉형(실생활데이터가 많이 취하는 모양)
    • 장점
      • 확률분포를 도입했기 때문에 kmeans보다 통계적으로 엄밀한 결과를 얻을 수 있음
      • 군집을 몇 개의 모수로 표현할 수 있고, 서로 다른 크기나 모양의 군집을 찾을 수 있음
      • kmeans보다 유연하게 다양한 데이터세트에 잘 적용됨
      • Kmeans는 원형 형태의 데이터에서는 군집을 잘하지만, 길쭉한 타원형 등의 데이터에서는 잘 못하기 때문
    • 단점
      • 군집의 크기가 너무 작으면 추정의 정도가 떨어짐
      • 데이터가 커지면 EM 알고리즘 적용시 시간/계송비용 증가
      • 이상치 처리를 잘해야 함
      • 유형들의 분포가 정규분포와 차이가 크면 결과가 좋지 못하다.
      • 몇 개의 확률분포를 혼합할 것인지 사용자가 지정하면 그 개수에 맞춰서 모델이 만들어짐

     

    <실습>

    iris.csv
    0.00MB

    데이터 정규화

     

    가우시안 혼합모델 구축

    - n_components 모델의 총 개수(사용자 설정)

     

    시각화