Certificate/data analytics-Google 48

Missing Data 처리하기, isnull, isna, fillna, dropna, any, drop_duplicated

목차 1. Missing Data 없거나 빠진 데이터는 아래와 같이 불린다. - N/A - NaN(Not a number) - 0과는 다른 의미이다. 2. 처리하는 방법 각각의 데이터셋마다 missing data의 출처가 다르고, 처리하는 방법도 다를 것이다. 보편적으로 missing data를 처리하는 방법이 무엇인지 알아보자. 1) 데이터의 소유자에게 missing값을 무엇으로 채울지 묻는다. 새롭게 데이터를 수집할 수도 있다. 하지만 시간이 오래 걸릴 것이다. 2) NaN값이 많지 않고 크게 영향을 미치지 않는다면, 해당 열, 행, 값을 삭제한다. 하지만 이것은 결과의 왜곡을 발생시킬 수 있다. 3) NaN 카테고리를 만든다. 4) 인접값, 중앙값, 평균값 등으로 대체한다. 3. 결측치 처리를 위한..

Understanding data format, structuring data

목차 Discovering process 중에 이러한 질문을 던져보자. - 어떻게 이 많은 데이터를 더 작게 그룹짓고 쪼개어서, 더 깊이 이해할 수 있을까? - 내가 세운 가설을 어떻게 증빙할 수 있을까? - 현재 이와 같은 형식으로, 데이터가 내게 제대로 된 정답을 줄 수 있을까? 데이터에서 질문하고, 제대로 된 가정을 세우고, 가정을 테스트 해보는 것으로 데이터에서 유의미한 발견을 할 수 있다. 질문하고 가정을 세우는 과정은 많은 노력과 시간이 필요하지만 이것이 숨겨진 이야기를 발견하는데 결정적인 역할을 해줄 것이다. Organize or alter data 데이터를 조직하고 바꾸기 데이터를 조작해보자. 그룹을 지어보기도 하고, 합쳐보기도, 나눠보기도 한다. 형식을 바꾸기도 해보자. (예시) - Re..

Understanding raw data, 비정형 데이터 이해하기

목차 Understanding raw data 비정형화된 원래의 데이터를 이해해보자. data source, data formats, data types을 이해하는 것은 아래의 두 가지 질문에 대한 유효한 해답을 내놓을 수 있다. 첫째, 데이터를 보았을 때, PACE workflow에 따라 계획한 내용이 적절한가요? 둘째, PACE workflow에 따라 계획한 내용을 하기에 모아진 데이터가 충분한가요? 만약, 두 가지 질문에서 no라고 이야기한다면 data source로 가서 더 많은 데이터를 주문하여 확보해야 한다. 데이터를 통해 유의미한 결과를 내놓는 것은 재료를 가지고 요리하는 것과 같다. 만약 재료가 어디에서 왔는지 원산지를 알고, 재료가 어떻게 포장되어 왔는지 확인하고, 횟감인지 디저트감인지 ..

PACE framework, EDA, EDA process

목차 Data workflow structure ask> prepare> process > analyze> share> act 벤자민 프랭클린은 "By Failing to prepare, you are preparing to fail"이라고 말했다. 실행하기에 앞서 준비하는 작업이 얼마나 중요한 것인지 알려준다. 훌륭한 팀은 대략적인 프레임워크를 짜고, 효율적으로 순서에 맞게 일을 처리한다. 이것은 특정 프로젝트에만 국한되는 것이 아니라, 모든 복잡한 문제를 해결할 때 공통적으로 적용할 수 있다. The best teams I've worked with have adopted a framework to help them focus on the most impaceful actions in the most..

2_ 뉴욕 택시 데이터셋 관련 데이터 사전

목차 1. 데이터 딕셔너리 데이터에 대해 이해해보자. 각 컬럼이 가지고 있는 의미를 해석하는 것으로 시작한다. 1) VendorID A code indicating the TPEP provider that provided the record. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. 뉴욕 택시 운전사가 택시 운행 기록을 제출할 때 어떤 회사의 시스템을 이용했는지 나타낸다. TPEP는 택시운행기록시스템 이고, 이 컬럼으로 제공 업체를 구분한다. 1과 2는 회사 이름이다. 2) RatecodeID The final rate code in effect at the end of the trip. 이 컬럼은 택시 운행이 종료될 때 최종 요금 코드를 의미한다..