Certificate/ADP

[ADP 데이터분석 전문가- 통계편] t-test, 윌콕슨 부호순위, 샤피로, one sample ttest, paired sample ttest, independent ttest

Olivia-BlackCherry 2023. 10. 18. 17:04

목차

    통계파트 흐름

    문제정의> 데이터수집> 데이터탐색 및 전처리> 데이터 변환/정제
    >통계모형수립> 모형 적합검정> 모형 평가> 결론 도출

    가장 중요한 것은 통계모형수립이다. 

    기초통계지식을 가지고, 데이터에서 내가 원하는 결론을 도출하기 위해 올바른 통계모형을 수립하는 것이 중요하다.

     

     

     

    기본 통계 용어

    1. 모집단: 전체 집단, 원래 집단을 말한다. 연구자가 알고싶어 하는 집단이다. 모집단을 모두 조사하는 것을 전수조사라고 한다. 대한민국 인구가 모집단이 될 수 있다. 하지만 양이 방대하기 때문에 현실적으로 불가능하다. 

    2. 표본집단: 따라서 모집단의 성질을 대표할 수 있는 일부만 표본으로 추출하여 조사한다. 연구자가 측정 또는 관찰할 집단이다. 

    3. 모수: 우리가 알고 싶은 것은 모집단의 성질이다. 예를 들어 모집단의 평균, 분산, 표준편차 등이다. 이것들을 모수라고 한다. 우리는 앞으로 표본으로부터 모수를 추정하게 될 것이다. 

     

     

     

    t-test

    t-test는 검정통계량이 귀무가설 하에서 t분포를 따르는 통계적 가설 검정 방법이다. 

    1. t분포란?

    표본의 크기에 관계없이 t분포를 이용하여 모평균을 구간추정할 수 있다. 

    단 모분산을 모르는 경우, 표본의 크기 n이 어느 정도 크다는 가정 아래(n>=30)

    표본으로부터 산출되는 불편분산 s² 을 모분산 σ² 으로 간주하여 모평균 μ 을 추정한다.

    만약 모집단분포가 정규분포라면 불편분산을 모분산으로 간주한다는 가정 없이도 모평균 추정이 가능하다.

     

    2. 수식

    모집단분포가 만약 정규분폴면 크기가  n인 표본으로부터 산출되는 통계량

    이 자유도 n-1인 t분포라고 부르는 확률분포를 따른다. 

     

    출처: 누워서 읽는 통계학

     

     

    3. 사용하는 경우

    - 특정 집단의 평균의 값 추정하거나 차이를 검정할 때 

    - 독립변수: 범주형

    - 종속변수: 연속형

    ex) 남, 여 표본을 추출하고 몸무게 평균 차이를 비교했을 때, 2kg 차이가 난다. 두 집단의 몸무게는 차이가 난다고 할 수 있을까?

     

     

    4. 종류

    표본의 개수에 따라 t-test 종류가 달라진다. 

    1) One sample t-test 일표본 T검정

    단일모집단에서 관심있는 연속형 변수의 평균값을 특정 기준값과 비교한다. 

    - 가정: 모집단이 정규분포를 이룬다. 종속변수는 연속형. 검증하거나 하는 기준값이 있어야 함.

    ex) H0: 모평균의 값은 2.7이다.  H1: 모평균 값은 2.7가 아니다.

    cats.csv
    0.00MB

    아래의 cats 데이터는 결측치가 없다. 고양이의 성별에 따른 몸무게와 길이를 보여주며 총 144개의 데이터가 있다.

     

    1. 가설설정 - H0: 몸무게의 평균값은 2.6이다. - H1: 몸무게의 평균값은 2.6이 아니다.
    2. 유의수준 - 5%= 0.05
    3. 검정통계량 및 p value 계산 - 데이터 개수가 144개이고, 범주형 변수를 독립변수, 연속형 변수를 종속변수로 취하므로 One sample t-test로 검정해보도록 한다.
    4. 그 전에 샤피로테스트/ 시각화를 통해 데이터가 정규성을 만족하는지 확인한다. 

    샤피로테스트 결과 검정통계치가 0.95이고, pvalue가 유의수준 0.05보다 작으므로 귀무가설을 기각한다. 즉, 해당 데이터는 정규분포를 따르지 않는다. 또한 아래와 같이 시각화 해본 결과 해당 데이터가 정규성을 띄지 않은 것을 확인할 수 있다. 

     

    따라서 wilcoxon의 부호순위 test로 t-test를 진행한다.

    검정통계치가 3572.0이고 pvalue가 0.025로 유의수준 0.05보다 작으므로 몸무게의 평균값이 2.6이라는 귀무가설을 기각하고, 몸무게의 평균값이 2.6이 아니라는 대립가설을 채택한다. 즉, 유의수준 0.05하에 고양이의 평균 몸무게는 2.6kg이라고 할 수 없다.

     

     

    2) Paired Sample t-test 대응표본 t검정

    - 단일모집단에 대해 어떤 처리를 했을 때, 처리 전후에 따른 평균의 차이를 비교할 때 쓴다.

    - 표본 내 개체에 두 번 측정한다.( 같은 집단이므로 등분산성 만족함)

    - 모집단의 관측값이 정규성 만족해야 한다는 가정이 있다.

    ex) 10명의 환자 대상 영양제 복용 전과 후의 수면시간 측정. 영양제가 수면시간에 대해 효과가 있는가? 

    샤피로 정규성 검정에 따르면 유의수준 0.05하에 p value값이 유의수준보다 크므로 before, after의 관측값이 정규성을 만족한다. 또한 시각화를 통해 구현해보아도 정규분포 형태를 따른다. 따라서 t-test로 검정을 수행한다.

    t-test 검정을 한 결과 유의수준0.05 아래 pvalue가 0.0005이므로 귀무가설을 기각한다. 따라서  수면제를 복용하기
    전과 후의 평균 수면시간의 차이는 통계적으로 유의하며, 영양제를 복용한 후 수면시간이 늘었다는 결론을 낼 수 있다. 

    3) Independent Sample t-test 독립표본 t검정

    - 두 개의 독립된 모집단의 평균 비교

    - 모집단, 모수, 표본이 모두 두 개씩 존재

    - 등분산성 가정을 해줘야 함.

    등분산성 검정이란 집단 내의 분산이 같은지를 확인하는 것이다.

    동일한 집단이 아니기 때문에, 두 집단의 분산이 다르면 푸는 방식이 달라진다.

    leven 레벤으로 등분산성 확인

    레벤으로 살펴본 결과 검정통계량, 즉 두 그룹 간 분산의 차이는 19.4이고 유의수준 0.05 아래에서 p-value 값이 더 작으므로 두 분산 차이가 통계적으로 유의미하며, 등분산성을 만족하지 않을 가능성이 높다. 즉, 두 그룹의 분산이 다르다는 증거이다.

    성별에 따른 등분산성을 만족하지 않으므로 equal_var=False로 독립 t-test를 진행한다.

    검정통계량은 -8.70이고, pvalue는유의수준 0.05보다 작으므로 귀무가설을 기각한다. 즉, f과 m의 차이가 유의미하다. 다시말해 여자 고양이와 남자 고양이의 몸무게의 차이가 있다.

     

     

     

    통계 기호 l 출처: ppg studio

    상징 기호 이름 의미/정의/예시
    P ( x ) 확률 밀도 함수
    (pdf-probability density function )
    P ( a  x  b ) = ∫ f ( x ) dx
    P ( A ) 확률 함수 사건 A의 확률
    P ( A  B ) 사건 교차 확률 사건 A와 B의 확률
    P ( A  B ) 사건 합동 확률 사건 A 또는 B의 확률
    P ( A | B ) 조건부 확률 함수 이벤트 B가 발생한 경우 이벤트 A의 확률
    Σ 통계에서는 수열의 합. 시그마. 수열의 모든 항을 더한것
    더하다는 뜻 sum 에서 유래하여 그리스 기호 시그마로 s로 나타낸다.
    F ( x ) 누적 분포 함수
    (cdf-Cumulative distribution function)
    F ( x ) = P ( X  x )
    E ( X ) 기대값 통계에서 기대값은 평균과 같다고 생각하면 된다. 가능한 값마다 확률을 곱해서 모두 더한 것이다. 확률변수 X의 평균으로 보통E(x)라고 쓴다.
    exp(x) 기대값 exp는 expectation, expected value이다.
    적분
    (인테그럴)
    적분. 적분이란 정의된 함수의 그래프와 그 구간으로 둘러싸인 도형의 넓이를 구하는 것이다.s자 알파벳으로 오인할 수도 있는데 적분 기호는 길쭉한 기호 이다.
    E ( X | Y ) 조건부 기대 Y가 주어진 임의 변수 X의 기대 값

    예시 )
    P ( X | Y = 2 ) = 5
    var ( X ) 변화,변수,분산 (Variance) 랜덤 변수 X의 분산
    σ 모수 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
    μ 모평균(뮤) 모집단의 평균
    σ² 모분산 관측값에서 모 평균을 빼고 그것을 제곱한 값을
    모두 더한것을 n-1로 나눈것이다.

    관찰값들이 얼마나 퍼져 있는지를 구하는 방법이다.
    분산을 알기 위해서는 먼저 평균을 알아내고, 각각 관찰값들과 평균 사이의 거리(distance)를 구하기 위해 관찰값에서 평균을 빼게 된다. 이때 평균이 음의 수인것은 평균을 내기 어려워서 과거에는 양의 수로 모두 바꿔서 계산을 하려고 제곱을 하게 됐다.
    σ 모표준편차 모분산σ²에 루트를 씌운것이다.
    위의 모분산 설명을 보면 모표준편차에서 왜 루트를 씌우는지 알 수 있는데 평균을 계산하기 위해 제곱했던것에 다시 루트를 씌워서 원래 값으로 돌리기 위함이다.
    모집단,
    표본공간(sample space)(오메가)
    모집단이나 표본공간 모든 사건의 수를 오메가로 표현한다.확률에서는 표본공간(sample space)를 말한다.표본공간이란 실험의 결과 하나하나를 모두 모은것
    표준 (X ) 표준편차 랜덤 변수 X의 표준 편차
    s 표본표준편차
    (Standard deviation)
     
    s² 표본분산 모평균(모집단의 평균)을 추정하기 위한 추정량, 확률표본의 표본값

    표본평균(sample mean) 확률표본의 평균값.
    표본통계량이란 표본평균이나 표본분산처럼 표본의 특성을 나타내는 대푯값
    을 말한다.
    X 언더바로 읽는다.
    N ( μ , σ ) 정규분포 ,가우스분포  
    n ! 계승 (팩토리얼) n ! = 1⋅2⋅3⋅ ⋅ ... N
    계승은 자연수만을 정의역으로 둔다. 모든 자연수 항을 곱한다.
    팩토리얼이라고 읽는다.
    0!은 특별히 1로 생각하면 된다.
    n P k 순열  
    기하 ( p ) 기하학적 분포 f ( k ) = p (1 -p ) k
    X ~ X 분포 랜덤 변수 X의 분포
    iid 독립분포  
    χ² 카이제곱분포  
    p-value p값 유의확률, 유의수준, 제1종 오류가 발생할 확률이다. 가설검정에서 쓴다.
    lim
    n→∞
    총 시행횟수(무한대로 표현) 변수가 일정한 법칙에 따라 정해진 값에 한없이 가까워질 때의 값
    함수(또는 수열)의 값이 어떠한 값으로 가까워지거나, 또는 점점 멀어지는 움직임을 나타낸다.
    연속성을 가진 연속형 확률변수를 정의할때 씀
    λ 푸아송분포
    (람다)
    포아송 분포(혹은 푸아송) 에서 정해진 시간 안에 어떤 사건이
    일어날 횟수에 대한 기댓값

    람다: 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값
    Γ 감마 모든 항을 곱할때 쓰는 기호
    팩토리얼처럼 0이하로는 정의하지 않음, 계승함수(팩토리얼)의 성격을 가지고 있다.

    [예시]
    Γ(n)=(n−1)! (nn이 자연수일 경우)
    Γ(n+1)=Γ(n)Γ(n+1)=nΓ(n)
    Γ(1)=1Γ(1)=1
    델타 최소값부터~최대값까지
    ^ 곱셈 캐럿이라고 읽는다.
    곱연산 계속 곱해 나가라는 뜻
    r 피어슨 상관계수 표본 상관계수 계산방식. 적률상관계수, 연속형변수, 정규성 가정에 대부분 많이 사용
    𝜌 스피어만 상관계수 로우라고 읽음. 순위상관계수, 순서형 변수, 비모수적 방법, 순위를 기준으로 상관관계 측정, 서열척도
    (P 모양과 비슷해 보일 수 있음 주의)
    COV 공분산(covariance) 두 확률변수 X,Y를 한꺼번에 놓는 방향의 조합이다.
    Corr 상관계수  
    ~ ~따라서 ~ [예시] b+1 ~ X(n+1) b+1은 따라서 x(n+1)로 규정된다.
    근사값이다. [예시 ]y ≈ X  (y는 x의 근사값)
    비례기호(proportionality sign) [예시] A∝B A는 B에 비례한다.
    θ 미지의 기울기 수 (세타) 최대우도 추정법등에서 사용