Certificate/data analytics-Google

[hypothesis testing] chi-squared test, 카이 제곱 검정, 적합도 검정, 독립성 검정

Olivia-BlackCherry 2023. 7. 25. 14:55

목차

    Hypothesis testing 가설검정

    As statistical procedure that uses sample data to evaluate an assumption about a population parameter.

    가설이란 검정할 목적으로 설정하는 모집단에 대한 가정을 말한다. 가설 설정 후에는 일정한 절차를 거쳐 진위여부를 결정한다. 가장 먼저 귀무가설, 대립가설을 설정한다. 그리고 난 후, 가설검정을 한다. 가설검정은 모집단으로부터 일부 추출한 표본관찰을 통해 그 가설의 채택 여부를 통계적으로 의사결정하는 분석방법이다.

     

    1. Chi-squared test 카이 제곱 테스트

    chi-squared tests will help us determine if two categorical variables are associated with one another, and whether a categorical variable follows an expected distribution. 

    관찰된 데이터와 예상된 데이터를 비교하는데 좋다. data가 categorical 할 때, 유리하다.

     

    1) chi-squared goodness of fit test 카이제곱 적합도 테스트

    Determines whether an observed categorical variable follows an expected distribution.

    관찰데이터가 예상하는 분포를 따르는지 확인한다.

     

     

    ex) 각 요일별로 웹사이트의 검색량이 같은가 다른가에 대한 결론을 얻고싶을 때

    귀무가설과 대립가설 식별

    H0: 모든 요일의 검색량이 같을 것이다. 각 요일에 해당하는 variable은 예상되는 분포를 따른다.

    H1: variable은 예상되는 분포를 따르지 않는다. 각 요일마다 검색량이 다를 것이다. 

     

    카이제곱 검정통계량 계산

    observed value

    전체 유입량이 3500회이므로, 일주일인 7로 나누면 평균 500명이 들어온다고 expected data를 설정한다. 

    카이제곱 검정통계량을 계산한다.

     

    p값 계산
    Observations = [650, 570, 420, 480, 510, 380, 490]
    Expectations = [500, 500, 500, 500, 500, 500, 500]
    Result = stats.chisquare(f_obs = Observations, f_exp = Expectations)
    print(Result)
    
    # Output: Power_divergenceResult(statistic = 97.6, pvalue = 7.9438869e-19)

     

     

    결론

    5% 신뢰수준에서 p value가 이보다 낮기 때문에 귀무가설을 기각하고 대체가설을 채택한다.

    따라서 각 요일에 따라 해당 웹사이트에 유입되는 양은 다르다.

     

     

     

    2) chi-squared test for independence 카이제곱 독립성 검정 

    = test of homogeneity

    Determines whether or not two categorical variables are associated with each other.

    두 범주형 변수가 서로 연관되어 있는지 여부를 결정하는 가설 검정이다.

     

     

    ex) 웹사이트에 들어올 때 매체로 Mac을 쓰느냐, PC를 쓰느냐는 회원등급과 관련이 있는지 없는지에 대해 검정을 진행한다.

    귀무가설, 대립가설 식별

    H0: Mac, PC를 쓰는 것은 회원등급과 관련이 없다.= 두 변수는 독립적이다.

    H1: Mac, PC를 쓰는 것이 회원등급과 관련이 있다. = 두 변수는 독립적이지 않다.

     

     

    카이제곱 검정통계량 계산

    observed value

    ex) Mac의 Member에 해당하는 카이제곱 검정통계량을 계산하면, 아래와 같다.

     

    p value 계산하기
    Observations = np.array([[850, 450], 
    			   [1300, 900]]
    Result = stats.contingency.chi2_contingency(Observations)
    print(Result)
    
    '''
    Output: (13.3964, 
         0.000252,
         1,
         array([[798.57, 501.42],
            [1351.42, 848.57]]))
    '''

    파이썬으로 계산하면, 카이제곱 검정량, p-value, 자유도, expected value가 나온다. 

     

     

    결론

    p-value가 신뢰수준 5%보다 작으므로, 귀무가설을 기각하고 대체가설을 채택한다. 따라서, 기기의 종류에 따라 회원등급이 다를 수 있다. 

     

     

     

    또 다른 예시

    ex) 비가 왔을 때 팝콘의 판매량이 영향을 끼치는가에 대해서 테스트하고 싶을 때 사용한다. 

    우선 변수를 정해야 한다. 

    variable1: 강수량---> 강수량 없음

    variable2: 판매량---> 판매량 증가하거나 감소한다.

     

    H0: 두 개의 변수가 독립적이고, 서로 영향력이 없다. =독립적이다.

    H1: 두 개의 변수가 의존적이라 서로 영향이 있다. =독립적이지 않다.

     

     

     

     

     

     

    다음 시간에!

    2. ANOVA 

    분산분석

     

    3. ANCOVA

    공분산분석

     

    4. MANOVA

    다변량 분산분석

     

    5. MANCOVA

    다변량 공분산분석

    에 대해 다음 시간에 다루도록 한다.