Python 18

[logistic regression] Python, binomial logistic regression, assumptions, odds, likelyhood, logit, confusion matrix, ROC curv, AUC

목차 Logistic regression 로지스틱 회귀 A technique that models a categorical dependent variable Y based on one or more independent variables X 최고의 로지스틱 회귀 모델은? The best logistic regression model estimates the set of beta coefficients that maximizes the likelihood of observing all of the sample data. ★ PACE - analyze pace 과정 중에 data를 analyze하면서, 이 데이터에는 어떤 모델을 쓰는 것이 적합한지를 파악한다. 만약 이때 해당 데이터를 가지고 logisitc..

ANOVA 개념, Python, hypothesis testing with python

ANOVA(Analysis of Variance)는 그룹 간의 평균 차이를 비교하기 위해 사용되는 통계적인 방법입니다. 주로 세 개 이상의 그룹을 비교하는 경우 사용되며, 그룹 내의 변동과 그룹 간의 변동을 분석하여 통계적으로 유의미한 차이가 있는지를 검정합니다. ANOVA는 다음과 같은 가설을 설정하고 검정합니다: 귀무 가설(H0): 그룹 간의 평균 차이가 없다. 대립 가설(H1): 적어도 한 그룹의 평균이 다른 그룹들과 다르다. ★ ANOVA의 기본적인 아이디어 그룹 내의 분산과 그룹 간의 분산을 비교하여 그룹 간의 평균 차이가 랜덤한 것인지 아니면 insight가 있는 발생인지를 검정하는 것입니다. 만약 그룹 간의 변동이 크고, 그룹 내의 변동이 작을 경우에는 그룹 간의 평균 차이가 통계적으로 유의..

[linear regression] Python, check assumptions

목차 아래는 TV, Radio, Social_media로 지불하는 광고비와 이때의 판매량(Sales)에 관한 데이터이다. 어떤 변수가 판매량에 영향을 미치는가에 대해 분석하고자 한다. 1. 라이브러리 - 기본 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns - 통계관련 # Import the statsmodel module. import statsmodels.api as sm # Import the ols function from statsmodels. from statsmodels.formula.api import ols 2. EDA: Y변수인 Sales의 distribution을 vi..

[Hypothesis test] Python, scipy.ttest_ind(), scipy.ttest_1sample()

목차 문제 상황 서로 다른 구역에서 문맹률 차이가 나는데, 이것은 우연적인 것일까 아니면 통계적으로 유의미한 상황인 것일까? DistName에서 구역을 알 수 있고, Overall_li에서 문맹률을 알 수 있다. 1. 통계 라이브러리 가져오기 import pandas as pd from scipy import stats 2. 데이터 전처리 - isna(), dropna()---> null값 처리 - state21, state28인 행만 추출한다. state21 = education_districtwise[education_districtwise['STATNAME'] == "STATE21"] state28 = education_districtwise[education_districtwise['STATNAM..

[Confidence interval] Python, 신뢰구간 만드는 방법, stats, scipy.stats.norm.interval(alpha, loc, scale)

목차 1. 라이브러리 설치 import numpy as np import pandas as pd from scipy import stats 2. sample() sampled_data = education_districtwise.sample(n=50, replace=True, random_state=31208) sampled_data 3. Construct a 95% confidence interval 표본의 개수가 30개 이상이라면(=표본의 개수가 충분할 때), 아래의 코드를 사용한다. scipy.stats.norm.interval(alpha, loc, scale) ★ alpha: The confidence level 95%---> 0.95 ★ loc: The sample mean sample_mean..