마이크로소프트/Azure

[Azure] 분류 실습하기- logistic regression

Olivia-BlackCherry 2023. 6. 15. 17:21

 

목차

    1. 분류 모델 만들기

    dataset 업로드

    Datasets> New> diabets.csv upload

    diabetes.csv
    0.49MB

     

     select columns in dataset -id제외

     normalize data- minmax, diabet 제외

     split data

     two-class logistic regression modeling

     train model

     score Model -> train 된 모델을 가지고, 데이터를 집어 넣었을 때 예측값과 실제값 비교

    여기서는 probabilities 확률값을 기반으로 예측을 한다. 

     evaluate model -> 스탠다드한 roc 커브를 통해 평가를 하는데, 

    ☆ 임계치

    thredshold 임계치를 조절하면 아래의 요소들의 값이 변한다는 것을 안다. 

    즉, 임계값 thredshold는 정밀도와 재현율의 수치를 바꾼다. 

    예를 들어, 결정 확률이 0.3인 것과 0.8인 것과는 차이가 있다.

    어떤 시험에서 30점만 넘으면 합격인 것과, 80점을 넘어야 합격인 것과는 합격자 수에 차이가 난다. 

    이것처럼 임계치는 positive 예측값을 결정하는 확률의 기준, 즉 커트라인을 결정한다. 

     

    다만 precision과 recall은 tradeoff 관계가 있어, 한 값이 오르면 다른 수치는 떨어진다. 

     

    두 값이 적절히 조화를 이루는 지점에서 임계치를 정한다. 

     

     

     

     

    2. Neural Network 인공신경망 비교하기

    뉴럴네트워크는 학습이 길다. 

    5분 정도 걸렸다. 

    빨강색이 neural network

     

     

    3. 분류모델 실습하기 2 -타이타닉

    Data preprocessing

    <결과>

     

     

     dataset upload >experiment> new blank

    Titanic_dataset.csv
    0.10MB

    sibsp 형제 배우자

    parch 부모, 자녀

    embarked 어디서 탔는지

     

     

     edit metadata 

    컬럼의 이름도 바꿀 수 있고, 구체적인 것들을 변경할 수 있다. 

    해당 컬럼이 모두 영어라서 이해하기가 어려우므로, 한글로 바꿔주자. 

    선실등급, 생존여부, 성별, 나이, 형제배우자, 부모자식, 요금, 출항지-> 컬럼 선택

     edit metadata

    선실등급을 카테고리형 컬럼으로 바꾼다.

     

     edit metadata

    생존여부의 데이터타입을 boolean형으로, fields는 label로

     

     clean missing data

    cleaning mode: replace using mice(전의 5개 값을 참고하여 널값을 대체한다.연쇄방정식을 이용함)

     model>evaluation

     clean missing data

     cleaning mode:replace with mode

     

     split data

    random seed,  fraction of rows 설정

     

     two-class logistic regression

     train model -> label: 생존여부

     score model

     

     evaluate model 

     

    azure, 분류모델 실습, 인공지능 교육, 인공지능 수업, 초중등 인공지능 수업, ai-900