Certificate/data analytics-Google 48

[Confidence interval] Python, 신뢰구간 만드는 방법, stats, scipy.stats.norm.interval(alpha, loc, scale)

목차 1. 라이브러리 설치 import numpy as np import pandas as pd from scipy import stats 2. sample() sampled_data = education_districtwise.sample(n=50, replace=True, random_state=31208) sampled_data 3. Construct a 95% confidence interval 표본의 개수가 30개 이상이라면(=표본의 개수가 충분할 때), 아래의 코드를 사용한다. scipy.stats.norm.interval(alpha, loc, scale) ★ alpha: The confidence level 95%---> 0.95 ★ loc: The sample mean sample_mean..

[confidence interval] 점추정, 구간추정, 신뢰구간, sample statistic, Margin of error, Confidence level, t분포

목차 1. Point estimate vs Interval estimate 점 추정과 구간 추정 ★ 점 추정은 population에서 하나의 샘플을 추출하여 전체 값을 예측하는 것이다. ★ 구간 추정은 일정 범위의 값들을 추출하여 전체 값을 예측한다. Confidence interval은 interval estimate라고 볼 수 있다. 점추정보다는 구간추정이 더 신뢰성이 있어 데이터분석가들이 많이 사용한다. 2. Confidence interval 신뢰구간 A range of values that describes the uncertainty surrounding an estimate 측정의 불확실성을 범위로 나타낸 값 - frequentist를 기반으로 한다. - 임의로 추출한 각각의 값은 늘 같을 ..

[Sampling] Python, 통계 라이브러리, sample(), std(), hist(), axvline(), plot(), legend()

목차 1. 라이브러리 import pandas as pd import numpy as np import matplotlib.pyplot as plt import statsmodels.api as sm from scipy import stats 2. sample() 샘플을 추출한다. n은 샘플사이즈 replace 추출한 후 다시 넣을 것인가(with replacement), 넣지 않을 것인가(without replacement) random_state는 seed이다. sampled_data = education_districtwise.sample(n=50, replace=True, random_state=31208) 추출한 샘플의 값을 평균을 낸다. education_districtwise['OVERALL..

[Sampling] population, representative sampling, process, simple, stratified, cluster, systematic, convenience, voluntary response, snowball, purposive, sampling distribution, bias, central limit theorem, standard error, proportion

목차 모집단과 표본 ★ Population 모집단 ★ Sampling 표본 The process of selecting a subset of data from a population. 1) 장점 - 시간, 돈을 줄이고 실용적이다. ex) 만약 대한민국의 가정에서 몇프로의 컴퓨터가 있는지 구하고자한다면, 대한민국 전체 인구를 검사하는 것보다 일부만 샘플을 추출하여 통계를 내는 것이 시간, 돈을 줄일 수 있다. 2) Representative sample Accurately reflects the characteristics of a population. 샘플은 대표성을 띄어야 한다. 그 말은 즉, 추출된 샘플이 전체 모집단의 특징을 가지고 있어야 한다는 의미이다. 좋은 샘플을 뽑지 못한다면, 데이터분석 자..

[Probability] python, scipy, statsmodels, hist, empirical rule, z-score, statz.zscore(), outlier

목차 1.통계 패키지 파이썬을 통계에서 하기 위해서는 두 가지 패키지를 설치한다. 1) Scipy 2) Statsmodels from scipy import stats import statsmodels.api as sm 데이터: 문맹률을 보여준다. overall_li가 해당 지역의 문맹률이다. 2. hist() 히스토그램 3. empirical rule 확인하기 68%, 95%, 99.7% ----> 1SD, 2SD, 3SD 1) 평균과 표준편차를 구한다. 2) 1SD 74-10 ~ 74+10 = 64~ 84 전체의 68%일까를 확인해보자. lower_limit = mean_overall_li - 1 * std_overall_li upper_limit = mean_overall_li + 1 * std_o..