코딩교육 39

Understanding raw data, 비정형 데이터 이해하기

목차 Understanding raw data 비정형화된 원래의 데이터를 이해해보자. data source, data formats, data types을 이해하는 것은 아래의 두 가지 질문에 대한 유효한 해답을 내놓을 수 있다. 첫째, 데이터를 보았을 때, PACE workflow에 따라 계획한 내용이 적절한가요? 둘째, PACE workflow에 따라 계획한 내용을 하기에 모아진 데이터가 충분한가요? 만약, 두 가지 질문에서 no라고 이야기한다면 data source로 가서 더 많은 데이터를 주문하여 확보해야 한다. 데이터를 통해 유의미한 결과를 내놓는 것은 재료를 가지고 요리하는 것과 같다. 만약 재료가 어디에서 왔는지 원산지를 알고, 재료가 어떻게 포장되어 왔는지 확인하고, 횟감인지 디저트감인지 ..

2023 부산 데이터위크 컨퍼런스 - 전미정 마이크로소프트 AI MVP -ChatGPT와 Plugin으로 생산성 120% 높이기

전미정 마이크로소프트 AI MVP ★ 주제: ChatGPT ChatGPT를 좀더 잘쓰고 싶은 분들에게 도움이 될 session이었다. CatGPT는 생성형AI(Generative AI -> GenAI) 중 텍스트 분야와 관련된다. 참고) 서울디지털재단에서 발행한 chatGPT 활용 사례 모음집이 있다고 한다. ★ 챗지피티 잘 사용하는 방법 챗지피티를 잘 사용할 수 있는 방법은 아래와 같다. 1. 업무의 목적을 상세하게 설명하자. Because GPT can't read ur mind. - 작성할 문구의 의도를 명확히 하기 - 요구사항 및 제한사항을 구체적으로 제시하기. - 불필요한 정보를 제외해달라는 요구를 하기 2. 분량을 정하자 3. 레이아웃을 알려주자 4. 정확한 내용이 기술되어있는 문장을 제시하고..

sns, seaborn, catplot, scatterplot, barplot, groupby, lineplot

목차 sns.catplot seaborn library에서 제공하는 카테고리별 plot을 생성하는 함수이다. parameter로 hue: 그래프의 요소를 구분하는 기준이다. parameter로 aspect는 그래프의 가로와 세로 비율을 조정하는 데 사용된다. 예를들어 aspect =5라면, 가로 길이를 세로 길이의 5배로 설정한다. 이 파라미터를 조정하여 그래프의 가독성을 높이거나, 데이터 포인트 간의 간격을 조정한다. sns.catplot(y="PayloadMass", x="FlightNumber", hue="Class", data=df, aspect = 5) plt.xlabel("Flight Number",fontsize=20) plt.ylabel("Pay load Mass (kg)",fontsize..

loc, iloc, isnull, dropna, fillna, astype, dtype

목차 loc loc은 pandas에서 dataframe, series에서 특정 행이나 열을 선택한다. 1) 단일 행 선택 아래의 예시에서 보면 loc 다음에는 '특정 행, 열'을 선택하기 때문에 index가 아니라 이름을 보고 선택한다고 생각하면 쉽다. row index의 이름이 4인 것을 찾아보면 된다! 이것은 index number가 4인 것과는 다르다. row= dff.loc[4] 2) 다중 행 선택 3) 단일 열 선택 여기서 유의해야 하는 것이 loc 다음에 [ 행, 열 ] 순서를 따른다는 것이다. 행만 적을 때는 열을 적지 않아도 되지만, 열을 적을 때는 행을 꼭 적어야 한다! 모든 행을 선택한다면 :를, 일부만 필터한다면 그에 맞게 행의 범위를 지정한다. 4) 다중 열 선택 다중 열을 적을 때..

clustering, k-means

목차 clustering 군집화 군집화는 비지도 unsupervised 알고리즘이다. cluster이란 비슷한 데이터들끼리 묶여있는 집단을 말한다. 어떤 데이터셋은 label이 정해져있지 않다. 이런 경우에는 cluster을 여러 개 만들어서 비슷한 성질을 가진 데이터들을 묶고, 그 데이터 묶음에 cluster을 부여한다. clustering applications - 고객 구매 패턴 - 새로운 고객에게 신간 책과 영화 추천 - 신용카드 부정 사용 파악 - 고객 분류 - 고객 신용 위험 진단 - 고객 추천 기사 - 환자 행동 분석 clustering 쓰는 이유 데이터 탐색에 좋다. 대략적으로 데이터를 일반화하거나, 사이즈를 줄일 수 있다. 이상치를 발견한다. 중복을 찾는다. 다양한 clustering a..