[hypothesis testing] chi-squared test, 카이 제곱 검정, 적합도 검정, 독립성 검정

Certificate/data analytics-Google

[hypothesis testing] chi-squared test, 카이 제곱 검정, 적합도 검정, 독립성 검정

Olivia-BlackCherry 2023. 7. 25. 14:55

Hypothesis testing 가설검정

As statistical procedure that uses sample data to evaluate an assumption about a population parameter.

가설이란 검정할 목적으로 설정하는 모집단에 대한 가정을 말한다. 가설 설정 후에는 일정한 절차를 거쳐 진위여부를 결정한다. 가장 먼저 귀무가설, 대립가설을 설정한다. 그리고 난 후, 가설검정을 한다. 가설검정은 모집단으로부터 일부 추출한 표본관찰을 통해 그 가설의 채택 여부를 통계적으로 의사결정하는 분석방법이다.

1. Chi-squared test 카이 제곱 테스트

chi-squared tests will help us determine if two categorical variables are associated with one another, and whether a categorical variable follows an expected distribution.

관찰된 데이터와 예상된 데이터를 비교하는데 좋다. data가 categorical 할 때, 유리하다.

1) chi-squared goodness of fit test 카이제곱 적합도 테스트

Determines whether an observed categorical variable follows an expected distribution.

관찰데이터가 예상하는 분포를 따르는지 확인한다.

ex) 각 요일별로 웹사이트의 검색량이 같은가 다른가에 대한 결론을 얻고싶을 때

귀무가설과 대립가설 식별

H0: 모든 요일의 검색량이 같을 것이다. 각 요일에 해당하는 variable은 예상되는 분포를 따른다.

H1: variable은 예상되는 분포를 따르지 않는다. 각 요일마다 검색량이 다를 것이다.

카이제곱 검정통계량 계산

전체 유입량이 3500회이므로, 일주일인 7로 나누면 평균 500명이 들어온다고 expected data를 설정한다.

카이제곱 검정통계량을 계산한다.

p값 계산

Observations = [650, 570, 420, 480, 510, 380, 490]
Expectations = [500, 500, 500, 500, 500, 500, 500]
Result = stats.chisquare(f_obs = Observations, f_exp = Expectations)
print(Result)

# Output: Power_divergenceResult(statistic = 97.6, pvalue = 7.9438869e-19)

결론

5% 신뢰수준에서 p value가 이보다 낮기 때문에 귀무가설을 기각하고 대체가설을 채택한다.

따라서 각 요일에 따라 해당 웹사이트에 유입되는 양은 다르다.

2) chi-squared test for independence 카이제곱 독립성 검정

= test of homogeneity

Determines whether or not two categorical variables are associated with each other.

두 범주형 변수가 서로 연관되어 있는지 여부를 결정하는 가설 검정이다.

ex) 웹사이트에 들어올 때 매체로 Mac을 쓰느냐, PC를 쓰느냐는 회원등급과 관련이 있는지 없는지에 대해 검정을 진행한다.

귀무가설, 대립가설 식별

H0: Mac, PC를 쓰는 것은 회원등급과 관련이 없다.= 두 변수는 독립적이다.

H1: Mac, PC를 쓰는 것이 회원등급과 관련이 있다. = 두 변수는 독립적이지 않다.

카이제곱 검정통계량 계산

ex) Mac의 Member에 해당하는 카이제곱 검정통계량을 계산하면, 아래와 같다.

p value 계산하기

Observations = np.array([[850, 450], 
			   [1300, 900]]
Result = stats.contingency.chi2_contingency(Observations)
print(Result)

'''
Output: (13.3964, 
     0.000252,
     1,
     array([[798.57, 501.42],
        [1351.42, 848.57]]))
'''

파이썬으로 계산하면, 카이제곱 검정량, p-value, 자유도, expected value가 나온다.

결론

p-value가 신뢰수준 5%보다 작으므로, 귀무가설을 기각하고 대체가설을 채택한다. 따라서, 기기의 종류에 따라 회원등급이 다를 수 있다.

또 다른 예시

ex) 비가 왔을 때 팝콘의 판매량이 영향을 끼치는가에 대해서 테스트하고 싶을 때 사용한다.

우선 변수를 정해야 한다.

variable1: 강수량---> 강수량 없음

variable2: 판매량---> 판매량 증가하거나 감소한다.

H0: 두 개의 변수가 독립적이고, 서로 영향력이 없다. =독립적이다.

H1: 두 개의 변수가 의존적이라 서로 영향이 있다. =독립적이지 않다.

다음 시간에!

2. ANOVA

분산분석

3. ANCOVA

공분산분석

4. MANOVA

다변량 분산분석

5. MANCOVA

다변량 공분산분석

에 대해 다음 시간에 다루도록 한다.

저작자표시 비영리 변경금지

'Certificate > data analytics-Google' 카테고리의 다른 글

ANOVA 개념, Python, hypothesis testing with python (0)	2023.07.25
ANOVA , Analysis of variance, post hoc test, Tukey's HSD(honestly significantly different) test (0)	2023.07.25
[multiple linear regression] Python으로 다중회귀분석하기 (0)	2023.07.24
[multiple linear regression]No multicollinearity assumption, 다중공선성, VIF, interaction term, Ridge, Lasso, Elastic, feature selection, 전진선택법, 후진제거법, Extra-sum-of-squares, F-test, 분산분석 (0)	2023.07.24
[linear regression] Python, check assumptions (0)	2023.07.22

현재글[hypothesis testing] chi-squared test, 카이 제곱 검정, 적합도 검정, 독립성 검정

올리비아 코딩스쿨