전체 글 622

pandas 배우기 3편 데이터시각화: 빅분기 ADP 데이터분석 시험, 파이차트, 히스토그램, 박스플랏, 스케터플랏,히트맵

1. pie 파이차트 1) 단일 파이차트 autopct, startangle, legend, locclaim = data2.iloc[:3] opinion = data2.iloc[3:] import matplotlib.pyplot as plt plt.figure(figsize=(10, 5)) plt.pie(claim['percent'], labels=claim['author_ban_status'], autopct='%1.2f%%', startangle=90) plt.legend(labels=claim['author_ban_status'], loc='best') plt.show() 2) subplot 그리기fig, ax = plt.subplots(1, 2, figsize=(10,5)) ax[..

pandas 배우기 2편 데이터전처리 :빅분기 ADP 데이터분석 요약

이번 편에서는 pandas가지고 데이터전처리 하는 방법을 공부해본다. 빅분기 ADP 데이터분석 시험 공부 요약 이라고 생각하면 좋다. 시작해보자!   목차 1. null값1) null값 찾기★  isnull()  = isna() : Null인것이 True★  notnull() : NotNull인것이 True 2) 개수 구하기★ sum()axis = 0axis = 1 축의 방향에 따라 sum()의 값이 달라짐 3) 제거★ dropna()axis=0, axis=1 이냐에 따라 제거되는 방향이 달라진다. 기본은 axis=0이다. 누락 행을 삭제axis=1은 누락 열을 삭제 ★ subset= [컬럼이름] 전체가 아니라 특정 열만 한정하는 경우는 subset을 쓴다. ★ how = 'any', 'all' ?any..

파이썬/판다스 2024.10.11

pandas 배우기 1편 EDA : 빅분기 ADP 데이터분석 시험 요약

이번에는 빅분기 시험 공부, ADP 시험 준비 하며 필수적인 pandas 공부 요약 정리해보도록 한다. 목차 # pandas 라이브러리 import pandas as pd import numpy as np # 시각화 라이브러리 import matplotlib.pyplot as plt import seaborn as sns # 행 /열 최대로 보기 pd.set_option('display.max_rows',None) pd.set_option('display.max_columns', None) # 경고 무시 import warnings warnings.filterwarnings("ignore") 0. 외부파일불러오기1) csvpd.read_csv(" 이름.csv", header=?, index_col= ?)..

파이썬/판다스 2024.10.11

트랜스포머 모델 쉽게 설명, transformer, 인코더, 디코더, 어텐션, hidden state, context, 분류헤드, embedding, 임베딩

목차오늘은 트랜스포머 모델 쉽게 설명 시간을 갖도록 한다. 자연어처리 분야에서 트랜스포머 모델은 아주 자주 쓰이며, 자주 쓰일 수 밖에 없다. 데이터를 모으는 것도, 빅데이터를 처리하는 것도 개인으로서는 아주 힘든 일이기 때문에 전이학습의 일종인 트랜스포머 모델을 쓸 수밖에 없다. 트랜스포머 모델 쉽게 설명하여 어떤 과정으로 언어를 이해하고, 생성해내고 판별하는지 확인해보자.  1. 트랜스포머 모델 아키텍처트랜스포머 transformer를 언어를 이해하고 변환하는 로봇이라고 생각하자. 이 로봇은 두 가지 중요한 도구를 가지고 있다. 인코더와 디코더. 이 두 가지를 이용해 문장을 읽고, 이해하며, 새로운 문장으로 변환한다. 1) encoder- 로봇의 귀와 같은 역할이다. 우리가 평상시 쓰는 언어, 즉 자..

자연어처리, 트랜스포머, 허깅페이스 토큰 로그인 모델 가져오기 저장하기, 미세튜닝, AutoTokenizer, transformer, confusionmatrixdisplay, 혼동행렬 시각화, trainer, trainingArguments

목차오늘은 허깅페이스 토큰 이용하여 코랩에서 로그인하여 원하는 모델 가져오고 저장하는 것, 해당 모델 미세튜닝하여 자연어처리하는 방법에 대해 안내한다. 1. 문장 토큰화 : transformers 에서 AutoTokenizer 가져오기from transformers import AutoTokenizermodel_ckpt = "distilbert-base-uncased"tokenizer = AutoTokenizer.from_pretrained(model_ckpt)1) Auto Tokenizer- 사전 훈련된 모델에 연관된 토크나이저를 빠르게 로드하는 클래스- 다양한 모델에 대해 자동으로 올바른 토크나이저 선택해주는 유연한 클래스. - 특정 모델을 지정하면, 해당 모델에 맞는 적합한 토크나이저를 로드함 2)..