Kaggle 18

10차시 다중선형회귀분석(multilinear regression), 다중공선성, vif, 허용오차, variance_inflation_factor, ols, matrices, 변수선택법

다중선형회귀분석 Multilinear regression 2개 이상의 독립변수가 종속변수에 미치는 영향을 추정하는 통계기법실제 세상에는 독립변수가 2개 이상인 경우가 많다. 종속변수에 영향을 미치는 요인이 여러 개이기 때문이다. 이런 경우 독립변수가 종속변수에 미치는 영향을 수치화하고, 이를 토대로 미래를 예측하기 위해 다중선형회귀분석(Multi linear regression model)을 사용한다.   Data preprocessing # ' . ' 포함되어 있는 것은 OLS formula적용이 안됨. data.columns = data.columns.str.replace('.', '')data.columnsIndex(['Unnamed: 0', 'Manufacturer',..

Kaggle 2024.04.23

9차시 회귀분석 단순선형회귀(simple linear regression), assumption, 결정계수, 회귀모델 및 회귀계수 통계적유의성, durbin watson, shapiro, scatterplot, rsquare, ols

목차 회귀분석 - 목적: 독립변수와 종속변수 간에 어떤 관계가 있는지 아는 것 변수 ★ Continuous variables Takes on any real value between minum and maximum value. 연속형 변수 ★ Categorical Variables Have a finite number of possible values 범주형 변수 ★ dependent variable.=Y response or outcome variable 종속변수 ★ Independet variable=X A variable that explains trends in the dependent variable = explanatory or predictor variable. 독립변수 수학적인..

Kaggle 2024.04.22

8차시 chi-square, 카이제곱 총정리, 교차분석, 카이제곱 검정, 적합성, 독립성, 동일성 검정, stats.norm(), stats.chi2(), pdf(), isf(), repeat(), stats.chisquare(), chi2_contingency()

목차 카이제곱분포 Z1~Zn이 서로 독립이고 정규분포를 따를 때, 그 제곱합의 확률분포가 자유도 n인 분포 뜻한다. 제곱의 분포이기 때문에 카이제곱분포는 모두 0이상인 실수 값을 취한다. 자유도 n에 따라 분포 형태가 달라지는데, n이 커질 수록 정규분포 형태에 가까운 좌우대칭 모습을 보인다. 1) 확률변수, 표본 생성 ♡ stats.norm() 평균0, 표준편차1인 정규분포를 나타내는 확률변수 생성하는 함수 ♡ 확률변수.rvs((n, samplesize) 지정된 확률분포에서 생성한 확률변수 중 무작위 표본을 생성하는 데 사용함. n은 생성할 표본의 차원, samplesize는 각 차원별로 생성할 표본의 수 import scipy.stats as stats impor..

Kaggle 2024.04.13

7차시 분산분석 ANOVA 총정리 one-way, two-way, 일원배치, 이원배치, anova, 사후검정, TukeyHSD, interaction_plot(), 교호작용, 포아송분포

목차 분산분석 1) 개념 ANOVA : Analysis of Variance 분산은 변수에 있는 숫자들 사이의 퍼짐을 측정하는 것이다. 어떤 숫자가 평균과 변수의 모든 숫자로부터 얼마나 떨어져있는지 측정할 수 있다. 분산이 작으면 해당 변수는 종속변수에 큰 영향이 없다고 판단을 내릴 수 있다. 분산분석은 '분산'의 특징을 이용한 분석방법이다. 두 개 이상의 다수 집단 간 평균에 차이가 있는지 분석할 때 분산을 이용한다. 앞선 ttest가 두 집단간의 평균 차이를 비교한다면, 분산분석은 비교하고자 하는 것이 다수(2,3,4개...) 라는 관점에 차이가 있다. 분산분석은 ttest의 업그레이드 버전이라고 봐도 무방하다. 2) 방법 여러 집단 간 평균이 같은지 다른지 통계적 검정을 쓰기 위해 F값을 구한다. ..

Kaggle 2024.04.10

6차시 ttest ABtest 티테스트

목차 통계 문제를 정의하고 데이터를 수집한다. 데이터탐색 후 전처리, 변환 정제 과정을 거친 후, 통계모형을 수립한다. 수립한 통계모형이 적합한지 검정하고, 모형을 평가한 후 결론을 도출한다. 이번 시간에는 통계모형을 어떻게 수립하는지에 대해 ttest를 기본으로 공부해본다. 검정 가설 설정(H0, H1) 유의수준 선택 (보통 5%) p value 찾기( pvalue 귀무가설 기각) ttest 독립변수 : 범주형 종속변수 : 연속형 ttest는 검정통계량이 귀무가설 하에서 t분포를 따르는 경우, 통계적 가설 검정 방법이다. 모집단 전체를 대상으로 검정을 진행하는 것이 아니라, 모집단 중 일부 표본을 따르는 경우 가설 검정 방법인 것이다. 표본의 크기(n)이 어느 정도 크다는 가정 아래(..

Kaggle 2024.04.05