머신러닝 22

classification, regression tree

regression tree regression은 회귀이다. 데이터셋이 이러한 회귀의 특성을 갖는데, 분류 모델로 decision tree를 쓴다면 이를 regression tree 라고 말한다. 모든 트리 기반의 알고리즘은 분류뿐만 아니라 회귀도 가능하다. 트리 생성이 CART(classification and regression tree) 알고리즘에 기반하기 때문이다. 회귀 트리는 트리 구조로 표현되며, 각 내부 노드는 특정한 예측 변수의 값을 기준으로 데이터를 분할한다. 종속 변수를 잘 예측할 수 있는 가장 좋은 분할을 찾는 것이 핵심인데, 분할 기준(criterion)으로 MSE 또는 MAE를 최소로 만드는 값을 선택한다. 과도한 오버피팅을 방지하기 위해 max_depth 깊이를 조절하거나, pr..

classification, decision tree, entropy, 지니계수, information gain

목차 decision tree 결정 트리라고 부른다. 수많은 데이터셋을 일정한 기준으로 계속하여 분류해 나가서, 최종적으로 가장 pure한 분류값을 얻는 게 목표이다. 어떻게 분류하는가? 이 말은 어떤 속성을 기준으로 분류하는가?와 같은 질문이다. 여러 개의 속성 attribute 중, 하나를 골라서 분류한다. 그 속성을 고르는 기준은 아래와 같다. less impurity(불순물), lower entropy, more predictiveness(예측) entropy measure of randomness(무작위성) or uncertainty(불확실성) 무작위성과 불확실성을 측정하여, 그 집단이 얼마나 동질성(균일성)을 갖는지 계산한다. ex)aaaaaab동질성(균일성) 높음, aabbaab동질성(균일성..

classification, KKN(k-nearest neighbors), evaluate metrics, f1 score, log loss, Jaccard index

목차 classification 분류 모델 분류 모델은 지도방법에 속한다. 아이템들을 서로 다른 카테고리나 클래스로 분류하는 작업이다. target attribute는 categorical한 variable로 binary하거나 multi한 클래스로 분류할 수 있다. machine learning에는 다양한 종류의 알고리즘이 있다. decision trees, Naive Bayes, linear discriminant analysis, k-nearest neighbor, logistic regression, neural networks, support vector machines 1) K-nearest Neighbours(KNN) K 이웃의 수 nearest neighbors 가까운 이웃이다. 먼저 k 숫..

simple linear regression, multiple linear regression

목차 regression은 독립변수가 종속변수에 영향을 미친다는 가정 아래 활용되는 모델이다. regression의 종류는 다양하다. 선형성이 있는가의 여부에 따라 linear, nonlinear로 독립변수의 개수에 따라 simple, multiple로 규제항에 따라 ridge, lasso, elastic net 독립변수의 차수에 따라 polynomial 등으로 구분한다. 1. simple linear regression import matplotlib.pyplot as plt import pandas as pd import pylab as pl import numpy as np %matplotlib inline #파일 다운로드 받기 path=파일의 경로 df = pd.read_csv("FuelConsu..

cifar10 데이터 이용한 CNN 모델 설계 2

1. 모델 컴파일하기 모델의 학습을 시작하기 전에 마지막으로 손실 함수, 최적화 알고리즘, 학습 과정 모니터링에 사용할 평가 지표 등 하이퍼파라미터를 결정한다. #모델 컴파일하기 model.compile(loss='categorical_crossentropy', optimizer='rmsprop', metrics=['accuracy']) loss 손실함수 categorical_crossentropy 크로스엔트로피 손실함수를 사용했다. optimizer 최적화 알고리즘 rmsprop을 사용했다. metrics 평가지표는 accuracy 정확도를 사용했다. 2. 모델 학습하기 #모델 학습하기 from keras.callbacks import ModelCheckpoint checkpointer = ModelC..

머신러닝/CNN 2023.04.15