목차
Hypothesis testing 가설검정
As statistical procedure that uses sample data to evaluate an assumption about a population parameter.
가설이란 검정할 목적으로 설정하는 모집단에 대한 가정을 말한다. 가설 설정 후에는 일정한 절차를 거쳐 진위여부를 결정한다. 가장 먼저 귀무가설, 대립가설을 설정한다. 그리고 난 후, 가설검정을 한다. 가설검정은 모집단으로부터 일부 추출한 표본관찰을 통해 그 가설의 채택 여부를 통계적으로 의사결정하는 분석방법이다.
1. Chi-squared test 카이 제곱 테스트
chi-squared tests will help us determine if two categorical variables are associated with one another, and whether a categorical variable follows an expected distribution.
관찰된 데이터와 예상된 데이터를 비교하는데 좋다. data가 categorical 할 때, 유리하다.
1) chi-squared goodness of fit test 카이제곱 적합도 테스트
Determines whether an observed categorical variable follows an expected distribution.
관찰데이터가 예상하는 분포를 따르는지 확인한다.
ex) 각 요일별로 웹사이트의 검색량이 같은가 다른가에 대한 결론을 얻고싶을 때
귀무가설과 대립가설 식별
H0: 모든 요일의 검색량이 같을 것이다. 각 요일에 해당하는 variable은 예상되는 분포를 따른다.
H1: variable은 예상되는 분포를 따르지 않는다. 각 요일마다 검색량이 다를 것이다.
카이제곱 검정통계량 계산
전체 유입량이 3500회이므로, 일주일인 7로 나누면 평균 500명이 들어온다고 expected data를 설정한다.
카이제곱 검정통계량을 계산한다.
p값 계산
Observations = [650, 570, 420, 480, 510, 380, 490]
Expectations = [500, 500, 500, 500, 500, 500, 500]
Result = stats.chisquare(f_obs = Observations, f_exp = Expectations)
print(Result)
# Output: Power_divergenceResult(statistic = 97.6, pvalue = 7.9438869e-19)
결론
5% 신뢰수준에서 p value가 이보다 낮기 때문에 귀무가설을 기각하고 대체가설을 채택한다.
따라서 각 요일에 따라 해당 웹사이트에 유입되는 양은 다르다.
2) chi-squared test for independence 카이제곱 독립성 검정
= test of homogeneity
Determines whether or not two categorical variables are associated with each other.
두 범주형 변수가 서로 연관되어 있는지 여부를 결정하는 가설 검정이다.
ex) 웹사이트에 들어올 때 매체로 Mac을 쓰느냐, PC를 쓰느냐는 회원등급과 관련이 있는지 없는지에 대해 검정을 진행한다.
귀무가설, 대립가설 식별
H0: Mac, PC를 쓰는 것은 회원등급과 관련이 없다.= 두 변수는 독립적이다.
H1: Mac, PC를 쓰는 것이 회원등급과 관련이 있다. = 두 변수는 독립적이지 않다.
카이제곱 검정통계량 계산
ex) Mac의 Member에 해당하는 카이제곱 검정통계량을 계산하면, 아래와 같다.
p value 계산하기
Observations = np.array([[850, 450],
[1300, 900]]
Result = stats.contingency.chi2_contingency(Observations)
print(Result)
'''
Output: (13.3964,
0.000252,
1,
array([[798.57, 501.42],
[1351.42, 848.57]]))
'''
파이썬으로 계산하면, 카이제곱 검정량, p-value, 자유도, expected value가 나온다.
결론
p-value가 신뢰수준 5%보다 작으므로, 귀무가설을 기각하고 대체가설을 채택한다. 따라서, 기기의 종류에 따라 회원등급이 다를 수 있다.
또 다른 예시
ex) 비가 왔을 때 팝콘의 판매량이 영향을 끼치는가에 대해서 테스트하고 싶을 때 사용한다.
우선 변수를 정해야 한다.
variable1: 강수량---> 강수량 없음
variable2: 판매량---> 판매량 증가하거나 감소한다.
H0: 두 개의 변수가 독립적이고, 서로 영향력이 없다. =독립적이다.
H1: 두 개의 변수가 의존적이라 서로 영향이 있다. =독립적이지 않다.
다음 시간에!
2. ANOVA
분산분석
3. ANCOVA
공분산분석
4. MANOVA
다변량 분산분석
5. MANCOVA
다변량 공분산분석
에 대해 다음 시간에 다루도록 한다.