VIF 3

10차시 다중선형회귀분석(multilinear regression), 다중공선성, vif, 허용오차, variance_inflation_factor, ols, matrices, 변수선택법

다중선형회귀분석 Multilinear regression 2개 이상의 독립변수가 종속변수에 미치는 영향을 추정하는 통계기법실제 세상에는 독립변수가 2개 이상인 경우가 많다. 종속변수에 영향을 미치는 요인이 여러 개이기 때문이다. 이런 경우 독립변수가 종속변수에 미치는 영향을 수치화하고, 이를 토대로 미래를 예측하기 위해 다중선형회귀분석(Multi linear regression model)을 사용한다.   Data preprocessing # ' . ' 포함되어 있는 것은 OLS formula적용이 안됨. data.columns = data.columns.str.replace('.', '')data.columnsIndex(['Unnamed: 0', 'Manufacturer',..

Kaggle 2024.04.23

[ADP 데이터분석 전문가- 통계편] 다중선형회귀분석, multi linear regression, 다중공선성, vif, 허용오차, 원핫인코딩, 라벨인코딩, 변수선택법, 단계적선택법 코드, 실습

목차 1. 다중선형회귀분석 multilinear regression 2개 이상의 독립변수가 종속변수에 미치는 영향을 추정하는 통계기법 회귀식은 일반적으로 1차항으로 구성된 다항식 2. 검토사항 1. 데이터가 전제하는 가정을 만족하는가? 독립변수와 종속변수 간 선형성 오차의 정규성 오차의 등분산성 오차의 독립성 2. 회귀모델이 통계적으로 유의한가? (F통계량) H0: 회귀모델이 유의하지 않다. H1: 회귀모델이 유의하다. 3. 모델은 데이터를 얼마나 설명하는가? 수정된 결정계수 확인 4. 모델 내의 회귀계수는 유의한가? (T통계량) 모든 회귀계수가 유의한지 검정한 후, 해당 회귀계수로 식을 만들어 해석하기 5. 모델이 데이터를 잘 적합하는가? 모형의 잔차와 종속변수에 대한 산점도를 그리고 회귀진단하여 판단..

Certificate/ADP 2023.10.24

[multiple linear regression]No multicollinearity assumption, 다중공선성, VIF, interaction term, Ridge, Lasso, Elastic, feature selection, 전진선택법, 후진제거법, Extra-sum-of-squares, F-test, 분산분석

목차 1. multiple linear regression A technique that estimates the relationship between one continuous dependent variable and two or more independent variables. 두 개 이상의 독립변수들이 종속변수에 영향을 미치는 관계를 측정하는 기술이다. 2. Categorical data categorical data를 처리할 수 있는 방법은 두 가지가 있다. One hot encoding과 label encoding이다. linear regression에서 categorical data를 처리할 때는 one hot encoding 방법이 쓰인다. one-hot encoding A data tran..