Certificate/통계학

[통계] 베르누이 시행, 이항분포, 정규분포, 표준정규분포, 표준정규분포표

Olivia-BlackCherry 2023. 5. 10. 11:55

목차

    기초통계용어

    확률변수random variable

    표본공간의 원소들을 숫자로 바꾸어 주는 함수

     

    확률분포 probability distribution

    확률변수의 가능한 값과 그에 대응되는 확률이 어떻게 분포되어 있는지 나타내는 것

     

    베르누이 시행 bernouli trial

    결과가 합격/불합격, 성공/실패 등 많은 실제 문제에서 확률변수가 가질 수 있는 값이 두 가지 결과 중 하나로 나타나는 경우. 즉, 어떤 실험이 두 가지 가능한 결과만을 가질 경우를 베르누이시행이라고 한다.

    성공할 확률 p

    실패할 확률 1-p=q

     

    성공여부를 확률변수 X라고 하면, 이를 X~Berr(p) 라고 표기한다. 

    출처: 통계교육원 강의(이하 동일)

    이산확률변수의 기댓값과 분산을 구하는 공식에 대입해보자. 

    따라서 베르누이 시행의 기댓값은 p, 분산은 p(1-p)이다. 

     

     

    이항분포 binomial distribution

    이항실험: 각 시행에서 성공확률이 p인 베르누이 시행을 주어진 횟수(n번)만큼 독립적으로 반복하는 시험

    x의 가능한 값: 0~n

    이항분포는 x가 가능한 값을 취할 확률을 구하는 것이다. 

    이항분포 각 x가 가능한 확률을 구해보자. 

    베르누이 시행은 횟수가 1인 경우인데, 이항분포는 횟수가 n번이다. 

     

    횟수가 늘어나고, 확률이 달라짐에 따라 이항분포의 형태가 아래와 같이 바뀐다. 

     

    이항분포 확률변수의 기대값은

    np이다.

    분산은 np(1-p)이다. 

     

     

    정규분포

    평균을 중심으로 골고루 분포되어 있음.

    연속형 확률변수의 분포를 정규분포라고 가정하면 확률변수가 취할 수 있는 값의 모든 범위에서 확률계산이 가능하다.

    평균과 표준편차에 따라 결정된다. 

    최빈값, 평균, 중앙값이 같다.

    3배의 표준편차 밖에 있는 자료는 거의 없다고 본다.

     

     

     

    표준정규분포 standard normal distribution

    Z~N(0,1)

    평균이 0, 분산이 1인 정규분포

    표준정규분포는 중심화와 단위화를 하여 확률밀도함수의 확률을 구하기 쉽게 standardization 해놓은 것이다. 

    중심화는 확률변수 X에 평균m을 뺀 값으로(X-m), 이 확률변수 X-m의 평균은 항상 0이 된다.

    단위화는 확률변수 X를 표준편차를 나눈 것으로, 이 확률변수 X/표준편차의 분산은 항상 1이 된다.  

     

     

    표준정규분포표

    Z~N(0,1)일 때, -3.49<z<3.49에 대하여 P(Z<=z)를 나타낸 표를 표준정규분포표라고 한다. 

    구하는 방법은 다음과 같다.

    행의 값은 1.8, 2.0처럼 자연수 부분과 소수 첫째자리수까지를 나타내고

    열의 값은 0.05 처럼 소수 둘째자리수를 나타낸다. 

     

    정규확률변수는 표준정규확률변수로 변환할 수 있다.