Certificate/ADP

[ADP 데이터분석 전문가- 통계편] simple linear regression 선형회귀분석, 가정, 모델 분석과 평가

Olivia-BlackCherry 2023. 10. 23. 13:56

목차

    출처: 데싸라면

     

     

    1. 회귀분석

    - 독립변수가 1개: 단순 선형 회귀분석

    - 독립변수가 2개 이상: 다중 선형 회귀분석

     

    kc_house_data.csv
    2.02MB

     

    * 문제

    주거공간(sqft_living)을 독립변수, 가격(price)을 종속변수로 설정하여 단순 선형 회귀분석을 실시한 후, 추정된 모형을 해석하기

     

    <EDA>

     

     

    종속변수 분포

     

      pairplot 그려서 두 변수 간의 상관관계 살펴보기

      ols

    OLS(Ordinary Least Squares estimation technique) 최소제곱추정량
    SSR(Sum of Squared REsiduals)이 최소가 되도록 선형회귀 모델의 파라미터를 측정하는 방법

    # OLS 모델 만들기
    import statsmodels.api as sm
    from statsmodels.formula.api import ols
    formula = 'price ~ sqft_living'
    OLS = ols(formula=formula, data=data)
    model= OLS.fit()
    model.summary() #요약

    출처: 구글- 어떤 데이터사이언스 분의 블로그

     

    1) 선형회귀분석의 가정

    Q. 모형이 데이터를 잘 적합하는가? 

    아래의 4가지를 만족해야 한다.

     

      선형성

    1) Linearity assumption 선형성
    두 변수 사이에 선형 관계 있는지 확인독립변수의 변화에 따라 종속변수도 변화하는 선형인 모형
    <방법>
    산점도 그리기상관계수

    scatterplot()

    corr()

     

     

       정규성

    2) normality assumption 정규성
    오차가 정규분포를 이루어야 함
    < 방법 >
    QQplot이나 히스토그램shapiro-Wilk 검정

     

     

       등분산성

    3) 등분산성
    잔차와 예측값 간의 관계를 확인하여 판단.잔차가 예측값에 대해 일정한 분산을 가진다.즉, 잔차가 예측값 주변에 고르게 분포되어야 한다는 뜻이다.만약 잔차가 예측값에 따라 일정한 패턴을 보이거나 분산이 예측값에 따라 크게 변하는 경향을 보인다면 등분산성 가정에 위배된다.
    < 방법 >
    scatterplot과 y=0 선으로 잔차의 분산을 시각화

    출처: 클래스101, 데싸라면 클래스 수업

     

     

       독립성

    4) Independence assumption 독립성
    각각 관찰된 값이 모두 독립적으로 상호 영향을 미치지 않는 것잔차와 독립변수 값이 관련되어 있지 않다.데이터가 어떻게 수집되어 있는지 파악하는 것이 중요함.
    < 방법 >
    Durbin-Watson 통계량Durbin-Watson 통계량이 2에 가까우면 독립성 만족Durbin-Watson 통계량이 0에 가까우면 오차항 간에 양의 상관관계가 존재Durbin-Watson 통계량이 4에 가까우면 오차항 간에 음의 상관관계가 존재

     

     

    2) 통계적 유의 검정

    Q. 회귀모형이 통계적으로 유의한가?

    < 가설설정>

    • H0: 회귀모형은 유의하지 않다.(B1=B2=...=Bk=0)
    • H1: 회귀모형은 유의하다(적어도 하나의 Bi는 0이 아니다)
    • ---> 해당 모델의 F통계량과 p-value를 확인한다

    < F통계량 >

    • 회귀 모델의 적합도를 평가하기 위한 통계량
    • 모델의 설명된 분산과 설명되지 않은 분산 간의 비율을 계산
    • 모델이 종속변수의 변동성을 얼마나 잘 설명하는지를 측정한다.
    • 큰 F통계량 값은 모델이 종속 변수의 변동성을 많이 설명하며, 작은 값은 설명력이 낮다는 것을 나타냄

    < Prob(F통계량) >

    • f통계량의 확률값, p값으로 f통계량이 얼마나 통계적으로 유의미한지 나타낸다.

     

     

     

    3) 결정계수(R-square)

    Q. 모형은 데이터를 얼마나 설명하는가?

    • R스퀘어는회귀분석에서 종속변수 y의 변동성이 독립변수X에 의해 얼마나 설명이 되는지를 나타내는 지표
    • 결정계수= (추정된 회귀식이 설명할 수 있는 데이터)/ (전체 데이터)
    • 수정된 결정계수(Adjusted R-square): 다변량 회귀분석의 경우, 포함된 독립변수의 유의성과 관계없이 독립변수의 수가 많아지면 결정계수가 높아지는 경향을 보임

    <평가>

    • R²>= 0.7 : 모델의 설명력이 높다.
    • 0.5<=R²<=0.7 : 모델이 중간 정도의 설명력을 갖는다. 종속변수의 일부 병동성을 설명하지만 미흡한 경우도 있다.
    • R²<0.5 : 설명력이 낮거나, 모델이 적합하지 않을 수 있다.

     

     

     

    4) 회귀계수 유의성 검정

    Q. 모형 내의 회귀계수가 유의한가?

    • intercept는 모형의 상수 값이므로 고려할 사항이 아니다.
    • 변수 sqft_living의 회귀계수가 유의한지 보자.
    • 회귀계수는 기울기를 의미한다. 기울기는 y의 변화량/x의 변화량이다. 2개를 비교하므로 t통계량을 쓴다.

    --> 회귀계수에 대한 t통계량의 p-value로 통계적 유의성을 판단한다.

     

    결론

    결론: 1~4의 모델 검토를 통해 전체 49.3%의 설명력을 갖는 회귀식을 구할 수 있다.

    • price= sqft_living * 289.6236 -4.358e+04