Certificate/data analytics-Google 48

[linear regression] Python, check assumptions

목차 아래는 TV, Radio, Social_media로 지불하는 광고비와 이때의 판매량(Sales)에 관한 데이터이다. 어떤 변수가 판매량에 영향을 미치는가에 대해 분석하고자 한다. 1. 라이브러리 - 기본 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns - 통계관련 # Import the statsmodel module. import statsmodels.api as sm # Import the ols function from statsmodels. from statsmodels.formula.api import ols 2. EDA: Y변수인 Sales의 distribution을 vi..

[linear regression] residual, SSR, OLS, linear regression assumption, linearity, normality, independent observation, Homoscedasticity, pairplot, r-squared, 결정계수

목차 A technique that estimates the linear relationship between one independent variable X, and one continuous dependent variable Y. 1. Linear regression equation 방정식 1) Best fit line 아래 식으로 수많은 선을 그릴 수 있지만 우리는 손실함수를 가장 최소로 하는 선을 그리고 싶다. 2) error 에러를 찾아야 한다 ★ Residual The difference betwe en observed or actual values and the predicted values(예상되는 값) of the regression line 엡실론= E 3) Sum of Suared R..

[Pace in regression analysis] PACE, 선형과 로지스틱 회귀의 기초개념, linear regression vs logistic regression

목차 Plan > Analyze > Construct > Excute 1.PACE 1. Plan Understand your data in the problem context contextualize&understand the data and the problem 데이터는 어떻게 모아졌고, 요구하는 것이 무엇인지 나머지 단계에 앞서서 전체적인 아웃라인을 계획해본다. 2. Analyze EDA, check model assumptions & select model Determine if we should move forward with building the model EDA 등 데이터를 좀더 분석해서 사용할 적당한 모델을 가정한다. 데이터에 대한 정확하고 통계적인 분석은 더 나은 모델을 구성하는데 도움이..

[Hypothesis test] Python, scipy.ttest_ind(), scipy.ttest_1sample()

목차 문제 상황 서로 다른 구역에서 문맹률 차이가 나는데, 이것은 우연적인 것일까 아니면 통계적으로 유의미한 상황인 것일까? DistName에서 구역을 알 수 있고, Overall_li에서 문맹률을 알 수 있다. 1. 통계 라이브러리 가져오기 import pandas as pd from scipy import stats 2. 데이터 전처리 - isna(), dropna()---> null값 처리 - state21, state28인 행만 추출한다. state21 = education_districtwise[education_districtwise['STATNAME'] == "STATE21"] state28 = education_districtwise[education_districtwise['STATNAM..

[hypothesis test] 귀무가설, 대립가설, 유의수준, 유의확률, statistical significance, one-sampled test, two-sampled test, z-test, t-test

목차 ★ Hyptothesis testing 가설검정 A statistical procedure that uses sample data to evaluate an assumption about a population parameter. 샘플링된 데이터를 이용하여 모집단에 대해 설정한 가정을 평가하는 통계적 과정이다. 모집단에 대해 어떤 가설을 설정한 뒤, 표본관찰을 통해 그 가설의 채택여부를 결정한다. 표본을 이용해 미지의 모집단 모수에 대한 두 가지 가설을 놓고 어느 가설을 선택할 것인지 '통계적'으로 의사결정한다. ex) 해당 약이 환자들을 감기에 낫게하는데 정말 도움이 되는가? 아니면 우연적으로 발생한 것인가? 병원에서는 감기에 걸린 환자를 대상으로 특정 약이 유효한가를 평가하기 위해 hypothe..