Certificate/data analytics-Google 48

Tableau 10분 정복, 태블로 기본기 익히기, 태블로 따라하기

목차 1. 회원가입 > 이메일 계정 활성화 https://public.tableau.com/app/discover 2. Create a Viz 3. 데이터 연결 4. 칼럼 5. 데이터 테이블 보기 6. Dimension vs Measures data Dimension: Qualitative data values 카테고리형 데이터--> 파란색으로 아이콘 표시됨 Measures: Numeric values 숫자형 데이터 --> 초록색으로 아이콘 표시됨 7. Continuous vs Discrete Continuous: A measure or Dimension has an infinite and uncountable number of outcomes 셀 수 없는 것을 말한다. Discrete: A measur..

Input validation, validate data, EDA, label encoding, dummy encoding, duplicated(), drop_duplicates(), replace, loc

목차 Input Validation The practice of thoroughly analyzing and double-checking to make sure data is complete, error-free, and high-quality 카레를 만들기 위해 야채를 산다고 했을 때, 살 때만 야채의 신선도를 확인하는 것이 아니라 냉장고에 넣을 때, 꺼내서 요리할 때, 며칠 후 남은 야채의 양을 확인할 때 등 수시로 야채가 신선한지 아닌지 계속 확인한다. 데이터도 마찬가지이다. 계속적으로 데이터의 상태를 확인해야한다. 데이터가 깨끗한지, 윤리적인지, 올바른지를 체크한다. Why validate data? 왜 데이터를 확인해야할까? - 비즈니스에서 정확한 의사결정을 돕는다. - 모델성능을 향상시킨다. ..

categorical data to numerical data, value_counts(), Categorical(), qcut(), .cat.codes, get_dummies(), pivot(), heatmap

목차 Categorical data Data that is divided into a limited number of qualitative groups 어떠한 기준에 의해 분류되는 데이터이다. 데이터분석에서는 카테고리테이터를 numerical data, 숫자형 데이터로 바꾸는 작업이 많이 필요하다. 그 방법에 대해 알아보자. 숫자형 데이터로 바꾸는 것이 저장용량도 줄이고, 속도를 빠르게 해주는 등 작업을 효율적으로 바꾸어준다. 1) Label encoding Data transformation technique where each category is assigned a unique number instead of a qualitative value. 각 변수에 질적인 양을 할당하는 것이 아니라, 각각의..

Outlier, 이상치 처리하기, global, contextual, collective outliers,

목차 Ouliter 이상치 보통의 값에서 멀리 떨어진 값을 이상값이라고 한다. Observations that are an abnormal distance from other values or an overall pattern in a data population. 데이터 전문가로서 이상치에 대한 탐구와 처리는 데이터분석에서 반드시 필요하다. 1) Global Values that are completely different from the overall data group and have no association with any other outliers. 보통의 값에서 현저히 떨어진 값을 이야기한다. 다른 이상치에 비해 발견하기 쉽다. 예를 들어 키에 관한 데이터가 있을 때 7.9m는 말도 안되게 ..