Certificate/data analytics-Google 48

ANOVA 개념, Python, hypothesis testing with python

ANOVA(Analysis of Variance)는 그룹 간의 평균 차이를 비교하기 위해 사용되는 통계적인 방법입니다. 주로 세 개 이상의 그룹을 비교하는 경우 사용되며, 그룹 내의 변동과 그룹 간의 변동을 분석하여 통계적으로 유의미한 차이가 있는지를 검정합니다. ANOVA는 다음과 같은 가설을 설정하고 검정합니다: 귀무 가설(H0): 그룹 간의 평균 차이가 없다. 대립 가설(H1): 적어도 한 그룹의 평균이 다른 그룹들과 다르다. ★ ANOVA의 기본적인 아이디어 그룹 내의 분산과 그룹 간의 분산을 비교하여 그룹 간의 평균 차이가 랜덤한 것인지 아니면 insight가 있는 발생인지를 검정하는 것입니다. 만약 그룹 간의 변동이 크고, 그룹 내의 변동이 작을 경우에는 그룹 간의 평균 차이가 통계적으로 유의..

ANOVA , Analysis of variance, post hoc test, Tukey's HSD(honestly significantly different) test

목차 데이터를 이해한다는 것은 데이터를 가지고 무엇을 할 수 있는지 알게해준다. 다시 말해, 어떤 검정을 실행할 수 있는지 아닌지에 대해, 데이터를 좀더 수정하면 어떤 검정도 가능하는지에 대해 알 수 있다. 오늘은 categorical variables과 continuous variable의 관계인 분산분석(ANOVA)에 대해 공부한다. Analysis of Variance(ANOVA) 분산분석 A group of statistical techniques that test the difference of means between three or more groups. ANOVA는 t-test의 확장버전이다. t테스트가 두 개의 그룹 사이의 평균의 차이에 대해 측정했다면, ANOVA는 여러 개의 그룹의 차..

[hypothesis testing] chi-squared test, 카이 제곱 검정, 적합도 검정, 독립성 검정

목차 Hypothesis testing 가설검정 As statistical procedure that uses sample data to evaluate an assumption about a population parameter. 가설이란 검정할 목적으로 설정하는 모집단에 대한 가정을 말한다. 가설 설정 후에는 일정한 절차를 거쳐 진위여부를 결정한다. 가장 먼저 귀무가설, 대립가설을 설정한다. 그리고 난 후, 가설검정을 한다. 가설검정은 모집단으로부터 일부 추출한 표본관찰을 통해 그 가설의 채택 여부를 통계적으로 의사결정하는 분석방법이다. 1. Chi-squared test 카이 제곱 테스트 chi-squared tests will help us determine if two categorical va..

[multiple linear regression] Python으로 다중회귀분석하기

목차 데이터 1. 라이브러리 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import statsmodels.api as sm from statsmodels.formula.api import ols 2. Data exploration 1) pairplot ---> Radio가 Sales와 가장 강한 양의 상관관계가 있고, Social Media 역시 약하지만 양의 상관관계가 있다. 다만 social media는 radio와 선형관계가 있기 때문에, 설명력이 더 좋은 Radio를 선택하고 social media는 선택하지 않는다. 2) Categorical variables ---> TV의 경우 광고를 많이 할 수록 판매..

[multiple linear regression]No multicollinearity assumption, 다중공선성, VIF, interaction term, Ridge, Lasso, Elastic, feature selection, 전진선택법, 후진제거법, Extra-sum-of-squares, F-test, 분산분석

목차 1. multiple linear regression A technique that estimates the relationship between one continuous dependent variable and two or more independent variables. 두 개 이상의 독립변수들이 종속변수에 영향을 미치는 관계를 측정하는 기술이다. 2. Categorical data categorical data를 처리할 수 있는 방법은 두 가지가 있다. One hot encoding과 label encoding이다. linear regression에서 categorical data를 처리할 때는 one hot encoding 방법이 쓰인다. one-hot encoding A data tran..