fillna 2

Missing Data 처리하기, isnull, isna, fillna, dropna, any, drop_duplicated

목차 1. Missing Data 없거나 빠진 데이터는 아래와 같이 불린다. - N/A - NaN(Not a number) - 0과는 다른 의미이다. 2. 처리하는 방법 각각의 데이터셋마다 missing data의 출처가 다르고, 처리하는 방법도 다를 것이다. 보편적으로 missing data를 처리하는 방법이 무엇인지 알아보자. 1) 데이터의 소유자에게 missing값을 무엇으로 채울지 묻는다. 새롭게 데이터를 수집할 수도 있다. 하지만 시간이 오래 걸릴 것이다. 2) NaN값이 많지 않고 크게 영향을 미치지 않는다면, 해당 열, 행, 값을 삭제한다. 하지만 이것은 결과의 왜곡을 발생시킬 수 있다. 3) NaN 카테고리를 만든다. 4) 인접값, 중앙값, 평균값 등으로 대체한다. 3. 결측치 처리를 위한..

loc, iloc, isnull, dropna, fillna, astype, dtype

목차 loc loc은 pandas에서 dataframe, series에서 특정 행이나 열을 선택한다. 1) 단일 행 선택 아래의 예시에서 보면 loc 다음에는 '특정 행, 열'을 선택하기 때문에 index가 아니라 이름을 보고 선택한다고 생각하면 쉽다. row index의 이름이 4인 것을 찾아보면 된다! 이것은 index number가 4인 것과는 다르다. row= dff.loc[4] 2) 다중 행 선택 3) 단일 열 선택 여기서 유의해야 하는 것이 loc 다음에 [ 행, 열 ] 순서를 따른다는 것이다. 행만 적을 때는 열을 적지 않아도 되지만, 열을 적을 때는 행을 꼭 적어야 한다! 모든 행을 선택한다면 :를, 일부만 필터한다면 그에 맞게 행의 범위를 지정한다. 4) 다중 열 선택 다중 열을 적을 때..