Certificate/data analytics-Google

Understanding raw data, 비정형 데이터 이해하기

Olivia-BlackCherry 2023. 7. 6. 21:03

목차

    Understanding raw data

    비정형화된 원래의 데이터를 이해해보자. 

    data source, data formats, data types을 이해하는 것은 아래의 두 가지 질문에 대한 유효한 해답을 내놓을 수 있다. 

    첫째, 데이터를 보았을 때, PACE workflow에 따라 계획한 내용이 적절한가요?

    둘째,  PACE workflow에 따라 계획한 내용을 하기에 모아진 데이터가 충분한가요? 

    만약, 두 가지 질문에서 no라고 이야기한다면 data source로 가서 더 많은 데이터를 주문하여 확보해야 한다. 

     

    데이터를 통해 유의미한 결과를 내놓는 것은 재료를 가지고 요리하는 것과 같다. 만약 재료가 어디에서 왔는지 원산지를 알고, 재료가 어떻게 포장되어 왔는지 확인하고, 횟감인지 디저트감인지 등의 타입을 안다면 요리 계획에서 재료의 적합도를 판단하기가 용이할 것이다. 그리고 재료가 충분한지 아닌지도 요리계획에서 꼭 확인해야 할 사항이다. 

     

     

    1. Data source 데이터 원천

    데이터의 소유자는 데이터에 관한 많은 이야기를 담고 있다. 데이터가 어디에서 왔는지, 누가 관리했고, 상위 책임자는 누구인지 확인해보는 것이다. 그것이 이 데이터가 쓸모있는지를 알게한다. 편향된 데이터가 아니라 사실을 기반으로 한 실제적인 데이터인지를 증빙한다.

    한편, 이 데이터가 어떻게 모아졌는지를 알 수 있다. 방법의 예로는 온라인 데이터 베이스에 저장된 것인지, 사람이 수동으로 하나하나 입력한 것인지 등이다. 원천을 알면 null 데이터가 왜 발생했는지, 데이터형식은 왜 그렇게 되어있는지 등을 알게 된다. 

     

     

    2. Data formats 데이터 형식

    tabular

    XML

    CSV

    Excel

    DB

    JSON

     

     

    3. Data types 데이터 타입

    데이터 타입에는 세 가지가 있다. 데이터가 first, second, thrid 중 어떤 것인지 안다면, 데이터에 관한 문제나 궁금증이 있을 때 그 문제에 깊숙이 접근하여 원인을 해결하는데 유리하다. 

    1) First-party data

    Data that was gathered from inside your own organization

    조직 내에서 모아진 데이터

     

    2) Second-party data

    Data that was gathered outside your organization but directly from the original source

    근원은 조직 내에 있지만, 어쨌든 외부에서 얻어진 데이터. 

     

    3)Third-party data

    Data gathered outside your organization and aggregated

    내 조직과 완전 분리된 곳에서 얻어진 데이터

     

    4) 기타 

    Geographic 지리적 데이터

    Demographic 인구 통계 데이터

    Numeric 숫자형 데이터

    Time-based 시간 기반 데이터

    Financial 금융 데이터

    Qualitative 질적 데이터

    ※ 참고로, 질적데이터는 특징, 의견, 태도, 감정, 행동 등과 같은 비숫자적인 특성을 기술하는 데이터 유형이다. 

    예를 들어 고객 만족도 조사 결과: 매우 만족, 만족, 보통, 불만족, 매우 불만족

    제품리뷰: 품질 우수, 사용이 편리, 디자인이 멋있다. 

    영화평론: 감동적인 연기, 스릴 넘치는 시놉시스, 코믹한 대사  

     

     

    데이터교육, 코딩교육, 데이터분석