Certificate/data analytics-Google

PACE framework, EDA, EDA process

Olivia-BlackCherry 2023. 7. 6. 11:13

목차

    Data workflow structure

     ask> prepare> process > analyze> share> act

    벤자민 프랭클린은 "By Failing to prepare, you are preparing to fail"이라고 말했다. 

    실행하기에 앞서 준비하는 작업이 얼마나 중요한 것인지 알려준다. 

    훌륭한 팀은 대략적인 프레임워크를 짜고, 효율적으로 순서에 맞게 일을 처리한다. 이것은 특정 프로젝트에만 국한되는 것이 아니라, 모든 복잡한 문제를 해결할 때 공통적으로 적용할 수 있다. 

    The best teams I've worked with have adopted a framework to help them focus on the most impaceful actions in the most efficient order, and they've had the discipline to use it to stay on track instead of running off into the weeds.

    So, Data workflow structure is important.

     

     

    PACE framework

    plan > Analyze> Construct> Execute

    출처: 구글

     

    plan: 프로젝트의 범위를 정의한다. 목표는 무엇인지, 전략은 무엇인지? 문제에 대해 정확히 이해한다.

     analyze: 데이터를 통해 힘을 얻는다. 분석하게 쉽도록 데이터를 clean, reorganize, transform한 후, EDA한다. EDA는  exploratory Data Analysis의 약자로 탐색적 데이터 분석을 뜻한다. 데이터를 다양한 각도에서 관찰, 분석하는 것을 뜻한다. EDA를 통해 어떠한 인사이트를 얻고, 이를 가지고 주변 관계자들과 토의를 할 수 있다. 

     Construct: 머신러닝 모델을 만든다. 데이터간 관계를 찾아내고, 통계방법을 적용해 보는 등의 활동을 한다.

     Execute: 결과를 이해관계자들과 나눈다. 질의응답을 하며다양한 관점에서 해당 프로젝트에 대해 이야기를 나누며 조언이나 의견을 서로 교환한다. 이 모든 것은 데이터를 기반으로 한다. 

     

    이 모든 과정에 피드백이 오간다. 따라서 팀워크에서 가장 중요한 것은 커뮤니케이션 스킬이다.

     

     

    데이터 전처리 과정

    1. Find and share stories using data 

    데이터를 이용해서 이야기를 찾고 공유하자. 

    데이터셋의 숫자와 테이블 안에 숨겨진 경향과 이야기가 있다. EDA(exploratory data analysis) 과정과 데이터 클리닝을 통해 이야기를 발견하고 전달하는 방법에 대해 배워본다. 각 데이터마다 적합한 데이터 시각화를 통해 청중들에게 이야기를 잘 전달할 수 있는 다양한 방법도 함께 공부한다. 

     

    2. Explore raw data

    정제되지 않은 원래의 데이터를 탐구해보자. 

    원본 그대로의 데이터는 그냥 보기에는 무시무시해보인다. 아무런 패턴이 없을 것만 같기 때문이다. 하지만 파이썬이 있다면 크게 두려워할 것이 없다. 파이썬을 이용해서 데이터를 보다 잘 이해할 수 있도록 PACE workflow를 따라 천천히 데이터를 탐색해 보도록 하자. 

     

    3. Clean your data

    필요없는 데이터를 지우자. 

    앞선 과정을 통해 데이터셋 안의 데이터들이 어떤 의미를 가지는지 알았다. 그렇다면 이번에는 데이터를 가지고 보다 능동적인 활동을 할 것이다. 지우고, 합치고, 분리하는 과정이다. 마찬가지로 파이썬을 활용할 것이다. 

     

    4. Data visualizations and presentations

    1~3 과정에서 스토리를 발견하고 데이터를 클리닝 했다면 이제는 청중들에게 발표할 자료를 제작해야 한다. 좀 더 논리적이고 누구나 이해할 수 있고, 전문적인 방법으로 말이다. 우리는 Tableau라는 프로그램을 이용할 것이다. 

     

     

    EDA

    The process of investigating, organizing, analyzing datasets and summarizing their main characteristics, often employing data wrangling and visualization methods

    데이터셋을 조사하고, 조직화하고, 분석하고, 특징을 요약, 시각화하는 과정이다. 

     

    ※ Practices of EDA

    discovering, structuring, cleaning, joining, validating

    발견하고, 구조를 세우고, 삭제하고, 통합하고, 분리한다.

    1) Discovering

    Data professionals familiarize themselves with the data so they can start conceptualizing how to use it

    데이터를 이리저리 보면서 어떤 의미가 있는지 발견하는 것이다. 

     

    2) Structuring

    The process of taking raw data and organizing or transforming it to be more easily visualized, explained, or modeled.

     카테고리로 칼럼을 분류하고 조직하는 과정이다. 예를 들어 1년으로 섞여 있던 데이터를 월, 날짜별 또는 분기로 분류하고 조직해 놓는 것이다. 뒤섞여 있었던 아이템을 특정 기준에 따라 분류하는 것이다.  

     

     Bias(in data structuring)

    Organizing data in groupings, categories or variables that don't accurately represent the whole dataset.

    바이어스는 편향, 편견이라고 부른다. structuring 과정 중에 분류자의 특정 편향으로 인해 해당 결과가 전체를 정확히 반영하지 못한다는 의미이다. 모든 편향을 100% 제거할 수는 없지만, 줄일 수 있도록 노력해야 한다. 

    예를 들자면, 2023년 경복궁에 방문하는 외국인의 국적을 보고, 우리나라에 관광오는 외국인의 국적 비율을 알고 싶다고 한다. 단편적인 2023년 경복궁 방문 데이터만으로는 전체를 예단하는데 편향이 발생할 것이다. 또는 카테고리를 어떤 것을 하느냐에 따라 편향이 발생할 수 있다. 따라서 데이터전문가는 편견과 차별을 인식하고 윤리적 사고방식을 일관되게 적용하여 데이터를 기반으로 한 인사이트를 도출할 수 있는 능력을 키워야 한다. 

     

    3) Cleaning

    The process of removing errors that may distort your data or maki it less useful.

    빠진 값, 철자가 틀린 것, 중복된 것, 너무 큰 이상치 등 데이터셋에서 크게 필요없는 데이터들을 삭제해 준다. 

     

    4)  Joining

    The processe of augmenting or adjusting data by adding values from other datasets.

    다른 데이터셋에서 데이터를 추가할 수 있다. 앞선 예제에서 경복궁 만의 데이터로 부족하다면, 다른 원천의 데이터를 더하는 것이다. 

     

    5) Validating 입증하기

    The process of verifying that the data is consistent and high quality.

    데이터가 일관성있고 질 높은 것인지 확인하는 과정이다. 이 데이터들을 그대로 프로그램에 넣었을 때 에러가 발생하지 않을지에 대해 다시 한번 확인하는 과정이라고 보면 되겠다. 

     

    6) Presenting

    Making your cleaned dataset or data visualizations available to others for analysis or further modeling.

    EDA를 통해 얻은 내용을 다른 사람들과 공유하고 상호 피드백을 주고 받기 위해 보여주는 것을 말한다. 더 효과적으로 보여주기 위해 데이터를 시각화하는데 그래프, 차트, 다이어그램, 대시보드 등에 정보를 넣는 것을 말한다. 시각화는 전 과정 어디에서든 사용할 수 있다. 왜냐하면 데이터를 시각화하는 것은 데이터를 이해하고 그 안의 인사이트를 얻는데 도움이 되기 때문이다. 

     

     

    EDA 과정은 step by step이 아니다. 필요에 의해 순서가 결정되고 때로는 반복될 수 있다. 

     

    데이터교육, 데이터분석, EDA, PACE, Google