목차
1. 분류 모델 만들기
★ dataset 업로드
Datasets> New> diabets.csv upload
★ select columns in dataset -id제외
★ normalize data- minmax, diabet 제외
★ split data
★ two-class logistic regression modeling
★ train model
★ score Model -> train 된 모델을 가지고, 데이터를 집어 넣었을 때 예측값과 실제값 비교
여기서는 probabilities 확률값을 기반으로 예측을 한다.
★ evaluate model -> 스탠다드한 roc 커브를 통해 평가를 하는데,
☆ 임계치
thredshold 임계치를 조절하면 아래의 요소들의 값이 변한다는 것을 안다.
즉, 임계값 thredshold는 정밀도와 재현율의 수치를 바꾼다.
예를 들어, 결정 확률이 0.3인 것과 0.8인 것과는 차이가 있다.
어떤 시험에서 30점만 넘으면 합격인 것과, 80점을 넘어야 합격인 것과는 합격자 수에 차이가 난다.
이것처럼 임계치는 positive 예측값을 결정하는 확률의 기준, 즉 커트라인을 결정한다.
다만 precision과 recall은 tradeoff 관계가 있어, 한 값이 오르면 다른 수치는 떨어진다.
두 값이 적절히 조화를 이루는 지점에서 임계치를 정한다.
2. Neural Network 인공신경망 비교하기
뉴럴네트워크는 학습이 길다.
5분 정도 걸렸다.
빨강색이 neural network
3. 분류모델 실습하기 2 -타이타닉
Data preprocessing
<결과>
★ dataset upload >experiment> new blank
sibsp 형제 배우자
parch 부모, 자녀
embarked 어디서 탔는지
★ edit metadata
컬럼의 이름도 바꿀 수 있고, 구체적인 것들을 변경할 수 있다.
해당 컬럼이 모두 영어라서 이해하기가 어려우므로, 한글로 바꿔주자.
선실등급, 생존여부, 성별, 나이, 형제배우자, 부모자식, 요금, 출항지-> 컬럼 선택
★ edit metadata
선실등급을 카테고리형 컬럼으로 바꾼다.
★ edit metadata
생존여부의 데이터타입을 boolean형으로, fields는 label로
★ clean missing data
cleaning mode: replace using mice(전의 5개 값을 참고하여 널값을 대체한다.연쇄방정식을 이용함)
model>evaluation
★ clean missing data
★ cleaning mode:replace with mode
★ split data
random seed, fraction of rows 설정
★ two-class logistic regression
★ train model -> label: 생존여부
★ score model
★ evaluate model
azure, 분류모델 실습, 인공지능 교육, 인공지능 수업, 초중등 인공지능 수업, ai-900
'마이크로소프트 > Azure' 카테고리의 다른 글
[azure] computer vision, custom vision (0) | 2023.06.15 |
---|---|
[Azure] 군집 실습하기 - K-means clustering (0) | 2023.06.15 |
[Azure] 분류 모델 평가지표 confusion metrics, Recall, sensitivity, Precision, TPR, FPR, Specificity, roc curve, F1 score (0) | 2023.06.15 |
[Azure] 회귀분석 실습하기 - Linear Regression (1) | 2023.06.15 |
[Azure] AI-900, 인공지능 개요, azure (0) | 2023.06.14 |