머신러닝/machine learning 8

머신러닝 과정 전체, preprocessing.StandardScaler(), fit(), transform(), fit_transform(), gridsearchCV, scores

목차 빅데이터를 가지고 머신러닝 모델로 데이터의 insight를 얻기 위한 일련의 과정을 경험해본다. 1.Data 아래의 두 데이터를 보면, 첫 번째는 완전히 정형화되지 않은 형태의 데이터이고, 두 번째 데이터는 float형태로 변환된 형태의 데이터이다. data X 2. Standardize X를 보면 float형태로 모두 변환되어 있지만 각 컬럼마다 range가 달라서, 머신러닝으로 바로 적용할 경우 효율이 떨어진다. 예를 들면, 시험을 쳤는데 수학은 난이도가 매우 어렵고, 사회는 난이도가 매우 쉬웠다. 결과적으로 두 과목 점수가 똑같이 80점이라 해도 실질적으로 같은 80점 정도의 수준에 있다고 보기 어렵다. 따라서 수학과 사회 난이도를 똑같이 맞춰야 한다. X도 보면 PayloadMass는 백, ..

clustering, k-means

목차 clustering 군집화 군집화는 비지도 unsupervised 알고리즘이다. cluster이란 비슷한 데이터들끼리 묶여있는 집단을 말한다. 어떤 데이터셋은 label이 정해져있지 않다. 이런 경우에는 cluster을 여러 개 만들어서 비슷한 성질을 가진 데이터들을 묶고, 그 데이터 묶음에 cluster을 부여한다. clustering applications - 고객 구매 패턴 - 새로운 고객에게 신간 책과 영화 추천 - 신용카드 부정 사용 파악 - 고객 분류 - 고객 신용 위험 진단 - 고객 추천 기사 - 환자 행동 분석 clustering 쓰는 이유 데이터 탐색에 좋다. 대략적으로 데이터를 일반화하거나, 사이즈를 줄일 수 있다. 이상치를 발견한다. 중복을 찾는다. 다양한 clustering a..

classification, SVM, support vector machine, kerneling

목차 SVM support vector machine 지도학습으로 separator을 찾아서 여러 케이스들을 분류하는 것이다. SVM은 데이터를 고차원 공간으로 맵핑한 후, separator을 찾는다. 아래와 같이 2차원 공간에 데이터를 두면, linear하게 separate 되지 않는다. 그런데 만약 아래와 같이 고차원 공간에 피처들을 놓는다면, 이야기가 달라진다. 데이터들이 고차원평면으로 separte된다. SVM은 데이터를 분류할 수 있는 최적의 고차원평면(hyperplane)을 찾는 것이 목적이다. Kerneling SVM 알고리즘에서는 kernel 함수 옵션을 제공한다. 고차원 공간으로 데이터를 매핑시키는 것을 커널링이라고 한다. 커널링은 수학적인 함수이며, 다양한 타입이 있다. 모두 장점과 단..

logistic regression, sigmoid, logistic regression vs linear regression, C, optimizer, softmax

목차 로지스틱 회귀 1. What is logistic regression? 로지스틱 회귀는 범주화된 값들을 분류하는 알고리즘이다. 예컨데, 여러 요인들을 근거로 최종값이 어떤 범주에 속하는지 분류하는 것이다. 최종값 dependent variable을 산출해 내는데 필요한 것은 independent variables이다. 개수는 하나일 수도, 여러 개일 수도 있다. 다만 값은 연속적이어야 한다. 만약 범주형이라면 dummy형으로 변환하여 연속적인 값으로 바꾸어줘야 한다. 반면, dependant variable은 categorical한 값이다. binary할 수도 있고, multiple할 수 있다. 예컨데, 성공하거나 성공하지 않는다. true/false, 클래스 a, b, c 중 하나에 속한다 등이 ..

classification, regression tree

regression tree regression은 회귀이다. 데이터셋이 이러한 회귀의 특성을 갖는데, 분류 모델로 decision tree를 쓴다면 이를 regression tree 라고 말한다. 모든 트리 기반의 알고리즘은 분류뿐만 아니라 회귀도 가능하다. 트리 생성이 CART(classification and regression tree) 알고리즘에 기반하기 때문이다. 회귀 트리는 트리 구조로 표현되며, 각 내부 노드는 특정한 예측 변수의 값을 기준으로 데이터를 분할한다. 종속 변수를 잘 예측할 수 있는 가장 좋은 분할을 찾는 것이 핵심인데, 분할 기준(criterion)으로 MSE 또는 MAE를 최소로 만드는 값을 선택한다. 과도한 오버피팅을 방지하기 위해 max_depth 깊이를 조절하거나, pr..