Certificate/data analytics-Google 48

[Machine learning - plan, analze] Python, class imbalance, upsampling, downsampling

목차 Class imbalance When a dataset has a predictor variable that contains more instances of one outcome than another. majority class(많은 것) vs minority class(작은 것) class 안에서 majority와 minority의 balance가 맞지 않아도 된다. 문제가 생기는 경우는 majority class가 90% 이상을 차지 할 때 이다. 이 문제를 해결하기 위한 방법은 두 가지이다. 1) upsampling - dataset이 작을 때 유용하다. 2) downsampling - dataset이 매우 클 때 유리하다. 뽑는 방법은 랜덤 또는 수학 formula를 쓴다. Python1 ..

[Machine Learning- PACE] Feature engineering, feature selection, transformation, extraction, log normalization, scaling, encoding, normalization, standardization, ordinal encoding, variable encoding

목차 Feature engineering The process of using practical, statistical, and data science knowledge to select, transform, or extract characteristics, properties, and attributes from raw data. 머신러닝 모델은 데이터가 얼마나 좋은지에 따라 훌륭하다고 말할 수도, 아닐 수도 있다. 데이터가 좋다는 것은 이 데이터를 가지고 내가 원하는 결과를 예측할 수 있느냐는 것이다. 많은 데이터가 있다고 좋은 것도 아니다. 좋지 않은 데이터들이 많은 경우에는 노이즈 발생 확률이 더 높아진다. 따라서 feature engineering을 통해 좋은 데이터를 선택하고, 모델에 잘 쓰일..

[Machine learning] supervised, unsupervised, reinforcement, deep learning, recommendation system, content-based, collaborative, variable types, python

목차 이제까지 linear regression, logistic regression에 대해 공부했다. 만약 어떤 데이터셋을 주고, 이것을 scatterplot으로 표현했다고 하자. 이러한 데이터셋은 앞서 배운 회귀모델로 처리할 수 있을까? 어렵다. 따라서 다양한 데이터에 적절히 적용할 수 있는 다양한 머신러닝 모델이 필요한 것이다. Machine Learning It involves using algorithms and statistical models to tach computer systems to analyze and discover pattern in data. 1. Main types of machine learning 머신러닝 타입은 크게 두 가지로 나뉜다 . 1) Supervised lear..

[logistic regression] Python, binomial logistic regression, assumptions, odds, likelyhood, logit, confusion matrix, ROC curv, AUC

목차 Logistic regression 로지스틱 회귀 A technique that models a categorical dependent variable Y based on one or more independent variables X 최고의 로지스틱 회귀 모델은? The best logistic regression model estimates the set of beta coefficients that maximizes the likelihood of observing all of the sample data. ★ PACE - analyze pace 과정 중에 data를 analyze하면서, 이 데이터에는 어떤 모델을 쓰는 것이 적합한지를 파악한다. 만약 이때 해당 데이터를 가지고 logisitc..

ANCOVA, Covariate, MANOVA, MANCOVA, 공변량

목차 ANCOVA(Analysis of covariance) A statistical technique that tests the difference of means between three or more groups while controlling for the effects of covariates, or variables irrelevant to your test. 독립변수 이외에 종속변수에 영향을 주는 잡음인자를 통제하여, 독립변수의 영향을 측정하려는 목적이 있다. 상관관계가 높은 변수가 있다면 분산분석 대신 공분산분석이 효과적이다. Covariate 공변량 the variables that are not of direct interest to the question we are trying to..