Kaggle

1차시 캐글 시작하기 타이타닉

Olivia-BlackCherry 2024. 3. 13. 18:11

titanic.zip
0.03MB

 

URL

Titanic - Machine Learning from Disaster | Kaggle

 

Titanic - Machine Learning from Disaster | Kaggle

 

www.kaggle.com

 

 

캐글 절차

1. competetion에 참여

2. 데이터분석하기

3. 제출하기

4. 순위 확인하기

5. 내 점수 향상할 수 있는 방법 찾기

 

 

 

데이터

★ sibsp 탑승한 sibling, spouse 수

sibling  형제 자매 새엄마 새아빠 

spouse 남편, 아내

 

★ parch 탑승한 부모 자식 수

parent 엄마 아빠

child 자식(딸, 아들, 입양한 딸, 입양한 아들) 

0 부모 없이 대리보호자(ex유모)만 있는 경우

 

★ 데이터 컬럼 분석
- 총 418개의 rows가 있고 11개의 column이 있다. 
- PassengerID는 숫자 자체에 의미는 없음
- Pclass는 수의 크기에 따른 의미가 있음 (1 최고, 2 보통, 3 하위)
- Name 의미없음 (삭제)
- Sex 여성/남성 -> 나중에 라벨인코딩 해야함
- Age 수의 크기에 의미 있음
- SibSp 수의 크기에 의미 있음
- parch 수의 크기 의미있음
- Fare 요금 의미있음
- cabin 선실 번호 - 수 자체에는 크기에 대한 의미없음
- embarked 승선 항구이름 

< 라벨값 >
- survived 0,1로 생존여부 표시

 

 

제출할 것은?

컬럼: PassengerID, Survived

Survived 형식은: 0 또는 1

 

ex)

 

 

 

평가방식

Accuracy 

 

 

코드

 

train/ test data 불러오기

 

 

 

 

★ loc, iloc

 

https://olivia-blackcherry.tistory.com/523

 

loc, iloc, isnull, dropna, fillna, astype, dtype

목차 loc loc은 pandas에서 dataframe, series에서 특정 행이나 열을 선택한다. 1) 단일 행 선택 아래의 예시에서 보면 loc 다음에는 '특정 행, 열'을 선택하기 때문에 index가 아니라 이름을 보고 선택한다고

olivia-blackcherry.tistory.com

 

 

★ get_dummies()

https://olivia-blackcherry.tistory.com/575

 

categorical data to numerical data, value_counts(), Categorical(), qcut(), .cat.codes, get_dummies(), pivot(), heatmap

목차 Categorical data Data that is divided into a limited number of qualitative groups 어떠한 기준에 의해 분류되는 데이터이다. 데이터분석에서는 카테고리테이터를 numerical data, 숫자형 데이터로 바꾸는 작업이

olivia-blackcherry.tistory.com

https://olivia-blackcherry.tistory.com/481

 

data cleansing

pre-procecessing 1. dealing with missing values in python -isnull(), notnull(), value_count() -dropna() df.replace("?", np.nan, inplace = True) 2. data formatting -bring data into a common standard of expressions(n.y->newyork) -applying calculations to an

olivia-blackcherry.tistory.com

 

 

 

★ 랜덤포레스트

https://olivia-blackcherry.tistory.com/614

 

[ensemble] Python, ensemble, voting, pickle, bootstraping, randomforest, hyperparameter tunes

목차 ensemble learning Aggregating their outputs to make a prediction 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법. 다양한 분류기의 예측 결과를 결합하는 것

olivia-blackcherry.tistory.com