1차시 캐글 시작하기 타이타닉

Kaggle

1차시 캐글 시작하기 타이타닉

Olivia-BlackCherry 2024. 3. 13. 18:11

titanic.zip

0.03MB

URL

Titanic - Machine Learning from Disaster | Kaggle

www.kaggle.com

캐글 절차

1. competetion에 참여

2. 데이터분석하기

3. 제출하기

4. 순위 확인하기

5. 내 점수 향상할 수 있는 방법 찾기

데이터

★ sibsp 탑승한 sibling, spouse 수

sibling 형제 자매 새엄마 새아빠

spouse 남편, 아내

★ parch 탑승한 부모 자식 수

parent 엄마 아빠

child 자식(딸, 아들, 입양한 딸, 입양한 아들)

0 부모 없이 대리보호자(ex유모)만 있는 경우

★ 데이터 컬럼 분석
- 총 418개의 rows가 있고 11개의 column이 있다.
- PassengerID는 숫자 자체에 의미는 없음
- Pclass는 수의 크기에 따른 의미가 있음 (1 최고, 2 보통, 3 하위)
- Name 의미없음 (삭제)
- Sex 여성/남성 -> 나중에 라벨인코딩 해야함
- Age 수의 크기에 의미 있음
- SibSp 수의 크기에 의미 있음
- parch 수의 크기 의미있음
- Fare 요금 의미있음
- cabin 선실 번호 - 수 자체에는 크기에 대한 의미없음
- embarked 승선 항구이름

< 라벨값 >
- survived 0,1로 생존여부 표시

제출할 것은?

컬럼: PassengerID, Survived

Survived 형식은: 0 또는 1

ex)

평가방식

Accuracy

코드

train/ test data 불러오기

★ loc, iloc

https://olivia-blackcherry.tistory.com/523

loc, iloc, isnull, dropna, fillna, astype, dtype

목차 loc loc은 pandas에서 dataframe, series에서 특정 행이나 열을 선택한다. 1) 단일 행 선택 아래의 예시에서 보면 loc 다음에는 '특정 행, 열'을 선택하기 때문에 index가 아니라 이름을 보고 선택한다고

olivia-blackcherry.tistory.com

★ get_dummies()

https://olivia-blackcherry.tistory.com/575

categorical data to numerical data, value_counts(), Categorical(), qcut(), .cat.codes, get_dummies(), pivot(), heatmap

목차 Categorical data Data that is divided into a limited number of qualitative groups 어떠한 기준에 의해 분류되는 데이터이다. 데이터분석에서는 카테고리테이터를 numerical data, 숫자형 데이터로 바꾸는 작업이

olivia-blackcherry.tistory.com

https://olivia-blackcherry.tistory.com/481

data cleansing

pre-procecessing 1. dealing with missing values in python -isnull(), notnull(), value_count() -dropna() df.replace("?", np.nan, inplace = True) 2. data formatting -bring data into a common standard of expressions(n.y->newyork) -applying calculations to an

olivia-blackcherry.tistory.com

★ 랜덤포레스트

https://olivia-blackcherry.tistory.com/614

[ensemble] Python, ensemble, voting, pickle, bootstraping, randomforest, hyperparameter tunes

목차 ensemble learning Aggregating their outputs to make a prediction 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법. 다양한 분류기의 예측 결과를 결합하는 것

olivia-blackcherry.tistory.com

저작자표시 비영리 변경금지 (새창열림)

'Kaggle' 카테고리의 다른 글

3차시 타이타닉 groupby, facetgrid 클래스 이용해서 데이터시각화, plt.his, sns.barplot, sns.pointplot (1)	2024.03.18
2차시 타이타닉 데이터 EDA select_dtypes(include, exclude), value_counts(normalize=True), hist(range, density, histtype, color), sns.countplot, sns.histplot, sns.pairplot, sns.barplot, sns.heatmap, drop (0)	2024.03.14
주파수 사인파 스펙트로그램 EEG 캐글 (0)	2024.02.13
EEG Pattern LPD GPD LRDA GRDA (0)	2024.02.13
HMS(harmful brain activity classification) kaggle 정보 (0)	2024.02.13

현재글1차시 캐글 시작하기 타이타닉

올리비아 코딩스쿨