파이썬 194

pandas 배우기 3편 데이터시각화: 빅분기 ADP 데이터분석 시험, 파이차트, 히스토그램, 박스플랏, 스케터플랏,히트맵

1. pie 파이차트 1) 단일 파이차트 autopct, startangle, legend, locclaim = data2.iloc[:3] opinion = data2.iloc[3:] import matplotlib.pyplot as plt plt.figure(figsize=(10, 5)) plt.pie(claim['percent'], labels=claim['author_ban_status'], autopct='%1.2f%%', startangle=90) plt.legend(labels=claim['author_ban_status'], loc='best') plt.show() 2) subplot 그리기fig, ax = plt.subplots(1, 2, figsize=(10,5)) ax[..

pandas 배우기 2편 데이터전처리 :빅분기 ADP 데이터분석 요약

이번 편에서는 pandas가지고 데이터전처리 하는 방법을 공부해본다. 빅분기 ADP 데이터분석 시험 공부 요약 이라고 생각하면 좋다. 시작해보자!   목차 1. null값1) null값 찾기★  isnull()  = isna() : Null인것이 True★  notnull() : NotNull인것이 True 2) 개수 구하기★ sum()axis = 0axis = 1 축의 방향에 따라 sum()의 값이 달라짐 3) 제거★ dropna()axis=0, axis=1 이냐에 따라 제거되는 방향이 달라진다. 기본은 axis=0이다. 누락 행을 삭제axis=1은 누락 열을 삭제 ★ subset= [컬럼이름] 전체가 아니라 특정 열만 한정하는 경우는 subset을 쓴다. ★ how = 'any', 'all' ?any..

파이썬/판다스 2024.10.11

pandas 배우기 1편 EDA : 빅분기 ADP 데이터분석 시험 요약

이번에는 빅분기 시험 공부, ADP 시험 준비 하며 필수적인 pandas 공부 요약 정리해보도록 한다. 목차 # pandas 라이브러리 import pandas as pd import numpy as np # 시각화 라이브러리 import matplotlib.pyplot as plt import seaborn as sns # 행 /열 최대로 보기 pd.set_option('display.max_rows',None) pd.set_option('display.max_columns', None) # 경고 무시 import warnings warnings.filterwarnings("ignore") 0. 외부파일불러오기1) csvpd.read_csv(" 이름.csv", header=?, index_col= ?)..

파이썬/판다스 2024.10.11

판다스 컬럼 항목 일괄 변경, 특정 컬럼 기준 정렬, map 매핑

목차 1. 판다스 컬럼의 항목을 일괄 변경하는 방법 replace import pandas as pd # 데이터프레임 생성 df = pd.DataFrame({'expert': [1, 2, 1, 2, 1, 2]}) # 'expert' 칼럼 값 변경 df['expert_2'] = df['expert'].replace({1: 'a', 2: 'b'}) # 결과 출력 print(df) 2. 판다스 특정 컬럼 기준 정렬 sort_values(by = [ , ] ) import pandas as pd # 데이터프레임 생성 df = pd.DataFrame({'a': [1, 3, 2, 1, 2], 'b': [4, 2, 6, 5, 3], 'c': [7, 9, 8, 10, 6]}) # 'a' 컬럼을 기준으로 오름차순 정렬 ..

파이썬/판다스 2024.02.15

iterator, enumerate, iterrows, zip, iter, next

목차 파이썬에서 iterator이터레이터는 반복가능한 iterable한 객체에 순차적으로 요소를 반환하는 객체이다. iterator은 반복 가능한 객체의 요소를 차례대로 가져오면서 메모리를 절약할 수 있다. 대규모 데이터, 무한 데이터 스트림과 같이 모든 요소를 한 번에 로딩하지 않고, 필요할 때마다 요소를 생성하고 반환하기 때문이다. 파이썬에서 자주 쓰이는 함수 3개를 이야기해보자. iterrows 판다스 데이터프레임에서 각 행을 반복문을 사용하여 출력하는 방법이다. import pandas as pd # 예시 DataFrame 생성 data = {'Name': ['John', 'Emily', 'Ryan'], 'Age': [25, 30, 35], 'City': ['New York', 'Paris', '..