트랜스포머 4

자연어처리, 트랜스포머, 허깅페이스 토큰 로그인 모델 가져오기 저장하기, 미세튜닝, AutoTokenizer, transformer, confusionmatrixdisplay, 혼동행렬 시각화, trainer, trainingArguments

목차오늘은 허깅페이스 토큰 이용하여 코랩에서 로그인하여 원하는 모델 가져오고 저장하는 것, 해당 모델 미세튜닝하여 자연어처리하는 방법에 대해 안내한다. 1. 문장 토큰화 : transformers 에서 AutoTokenizer 가져오기from transformers import AutoTokenizermodel_ckpt = "distilbert-base-uncased"tokenizer = AutoTokenizer.from_pretrained(model_ckpt)1) Auto Tokenizer- 사전 훈련된 모델에 연관된 토크나이저를 빠르게 로드하는 클래스- 다양한 모델에 대해 자동으로 올바른 토크나이저 선택해주는 유연한 클래스. - 특정 모델을 지정하면, 해당 모델에 맞는 적합한 토크나이저를 로드함 2)..

자연어처리, 트랜스포머, 구글 코랩 GPU 사용 방법, T4GPU TPUv2, cls토큰

목차1. 구글 코랩 GPU 사용 가능?torch.cuda.is_available()- jupyter 노트북에서 바로 하는 방법 발견 못함- 쉽게 그냥 코랩 이용하면 됨런타임 > 런타임 유형 변경 >T4 GPU NLP 사용 좋음- T4GPU 범용적고 파이토치, 모델 추론에 적합- TPUv2는 텐서플로 모델의 대규모 학습에 탁월하며 대형신경망 모델 훈련에 강력함- 다만 시간/용량 제한이 있음(매일갱신)   2. 텍스트 분류 모델 훈련# 텍스트 분류 모델 훈련을 위한 데이터 만들기# 머신러닝 텍스트 분류 모델은 입력 값을 숫자 벡터로 받기 때문에 내가 가진 데이터 그대로를 입력값으로 넣을 수 없음# 사전 학습된 모델을 이용해 은닉상태(임베딩)을 추출하여 그것을 입력으로 넣어야 함. 2-0 사용 모델# Auto..

허깅페이스, 트랜스포머, 자연어처리, 데이터셋로드, 문자, 단어, 토큰화, AutoTokenizer

목차1. 데이터셋 설치!pip install datasets  2. 데이터셋 살펴보기# 데이터셋 리스트from datasets import list_datasetsall_datasets = list_datasets()print(len(all_datasets)) # 몇 개?print(all_datasets[0]) # 첫 번째 데이터셋# 데이터셋 로드from datasets import load_datasetemotions = load_dataset("emotion")emotions197878amirveyseh/acronym_identificationDatasetDict({ train: Dataset({ features: ['text', 'label'], num_rows: 16..

트랜스포머, 자연어처리, pipeline, 감정분류, 개체명인식, 질문답변, 요약, 생성

목차사전 준비# 판다스import pandas as pd# 경고 메시지 무시 import warnings warnings.filterwarnings("ignore") #원복 : default 예시문장 text = "It was a beautiful, sunny day, and Anna was excited to visit the art museum. The city was bustling, and she felt alive as she walked through the streets. Her friend Sarah canceled last minute, which disappointed her, but she decided to go alone. At the museum, the paintings sti..