Kaggle 18

5차시 타이타닉 모델링 to_frame(), display(), standardscaler, OneHotEncoder(), knnimputer, dendrogram, missingno, re, fit_transform(), rename()

to_frame(), display(), standardscaler, OneHotEncoder(), knnimputer, dendrogram, missingno, re, fit_transform(), rename()목차 Titanic_model_with_98%_accuracy (kaggle.com) import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt import klib import plotly_express as px import missingno as mogn import warnings from dash import Dash,dcc,html,Input,Output from dython...

Kaggle 2024.03.27

4차시 타이타닉 정규표현식 regular expression, label encoding, map함수, as_index, str, replace, pd.cut, sort_values(), astype, mode(), sort_index()

목차 1. 정규표현식 Regular Expression정규표현식 의미: 문자열에서 패턴을 찾거나 매칭시키기 위해 사용되는 표현 방식이다. 문자열 검색, 대체, 추출 등 다양한 문자열 처리 작업에 유용하게 사용된다. 구성: 일련의 문자 + 메타 문자.  : 어떠한 문자 하나와도 매칭됩니다. *  : 앞의 패턴이 0개 이상의 반복을 의미합니다. +  : 앞의 패턴이 1개 이상의 반복을 의미합니다. ?  : 앞의 패턴이 0개 또는 1개의 반복을 의미합니다. []  : 대괄호 안에 있는 문자 중 하나와 매칭됩니다. ()  : 괄호 안에 있는 패턴을 그룹화하고, 매칭 결과를 추출할 수 있습니다. \  : 다음에 오는 문자를 이스케이프(escape)하여 특수한 의미를 없앱니다. train_dat..

Kaggle 2024.03.19

3차시 타이타닉 groupby, facetgrid 클래스 이용해서 데이터시각화, plt.his, sns.barplot, sns.pointplot

목차 1. groupby - as_index : groupby 연산의 결과로 생성되는 새로운 DF에서 그룹화 열을 인덱스로 사용할지 여부를 결정 True 그룹화열이 인덱스로 사용 False 그룹화열 인덱스로 사용 X train_data[['Pclass', 'Survived']].groupby(['Pclass'], as_index=False).mean().sort_values(by="Survived", ascending=True) train_data[['Pclass', 'Survived']].groupby(['Pclass'], as_index=False).mean().sort_values(by="Survived", ascending=False) - 마찬가지로 Sex, SibSp, Parch 등 독립변수와 ..

Kaggle 2024.03.18

2차시 타이타닉 데이터 EDA select_dtypes(include, exclude), value_counts(normalize=True), hist(range, density, histtype, color), sns.countplot, sns.histplot, sns.pairplot, sns.barplot, sns.heatmap, drop

목차 EDA - info() - dtypes - select_dtypes(include=[np.number]) 자료형 선택해서 보여주기 numerical한 경우 / categorical한 경우 train_data.dtypes train_data.select_dtypes(include=[np.number]) train_data.select_dtypes(exclude=[np.number]) - describe() 기본적으로 numerical data만 나오는데, include="O" 하면 datatype이 object인 것만 나옴 원하는 컬럼만 나오게 하려면, [] 대괄호 4분위값이 아니라, 특정 범위의 값을 알고 싶다면 [] 리스트 안에 넣기 T 전치행렬로 변환도 가능 - value_counts() nor..

Kaggle 2024.03.14

1차시 캐글 시작하기 타이타닉

URL Titanic - Machine Learning from Disaster | Kaggle Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 캐글 절차 1. competetion에 참여 2. 데이터분석하기 3. 제출하기 4. 순위 확인하기 5. 내 점수 향상할 수 있는 방법 찾기 데이터 ★ sibsp 탑승한 sibling, spouse 수 sibling 형제 자매 새엄마 새아빠 spouse 남편, 아내 ★ parch 탑승한 부모 자식 수 parent 엄마 아빠 child 자식(딸, 아들, 입양한 딸, 입양한 아들) 0 부모 없이 대리보호자(ex유모)만 있는 경우 ★ 데이터 컬럼 분석 - 총 418개의 rows가 있고 11개의 colu..

Kaggle 2024.03.13