전체 글 621

[판다스 10분 요약 6] Concat 데이터 합치기

Concatenating objects 1. concat() concate 뜻: 붙이다. 콘켓은 레고를 조합하는 거라고 생각하면 쉽다. 그냥 이어붙인다! 기본 df이다. import pandas as pd import numpy as np df = pd.DataFrame(np.random.randn(10, 4)) print(df) df에서 2개의 다른 데이터프레임을 만든다. df1 = df[:3] print(df1) df2 = df[3:5] print(df2) df1, df2를 concat한다. concat_df= pd.concat([df1, df2]) print(concat_df) df1, df2가 합쳐져서 나왔다!! 다른 예시도 보자. df1, df2, df3를 concat한다. 그대로 이어붙인 모습..

파이썬/판다스 2022.09.06

[판다스 10분 요약 5] Operation 연산

1. Stats 1) mean() 각 열에 대한 평균을 구한다. 2) mean(1) 다른 축, 즉 각 행에 대한 평균을 구한다. 3) broadcast s 시리즈는 열이 1개, 행이 6개이지만 df와 sub(뺄셈) 연산을 수행할 때는 df의 열 개수 만큼 복제되어 계산된다. 이것을 broadcast(확장) 이라고 한다. 2. apply 데이터에 함수를 적용한다. cumsum = 누적되다 값을 계속 누적하여 계산한다. lambda 함수를 적용한다. 여기서는 최대값-최솟값을 적용했다. 3. 히스토그램 특정 데이터가 얼마나 분포해있는지를 본다. histogram은 도수분포표인데 histogramming은 해당 값이 얼마나 분포해있는지를 확인한다. discretization은 이산화를 말하는데 하나의 그룹을 여..

파이썬/판다스 2022.09.05

[판다스 10분 요약 4] Missing data(NaN, np,nan) 없는 데이터

1. NaN 판다스는 값이 없는 데이터에는 NaN이라고 표시한다. 새로운 데이터프레임을 만들기 위해 index를 다시 설정한다. index는 dates에서 0,1,2,3 위치의 값으로 설정하고, columns는 df의 칼럼을 가져오되, E열을 추가한다. E열의 0, 1번째 값은 1이고 지정되지 않는 값은 null값으로 NaN으로 표시한다. 2. dropna() NaN 값이 있는 어떤 행이든 삭제한다. drop: 삭제하다 na: NaN any: 어떤 것이든 3. fillna(value=?) value 값으로 빈 곳을 채운다. fill: 채우다 na: NaN value: 값 4. isna() Is na? = Is NaN? isna(데이터프레임) null값, 즉 값이 없는 데이터가 있는지 묻고 있다면 True..

파이썬/판다스 2022.09.05

[판다스 10분 요약 3] Selection 데이터 선택해서 보여주기

1. 하나의 칼럼만 뽑기 2. 행을 슬라이싱하기 3. dates 열에서 첫 번째 행의 값만 가져오기 loc 뒤에는 값이 나오고, 그 값의 위치에 있는 데이터를 보여준다. 4. 전체 행에서 A, B 칼럼의 값만 가져오기 : 전체를 의미 5. 특정 행의 특정 열 값들만 가져오기. 6. 5번에서 더 차원을 축소하기 7. 상수값(스칼라값)만 가져오기 8. iloc[ position ] 사용하여 해당 값 가져오기 iloc 다음에 오는 것은 위치 인덱스 값이다. [3] 이면 0,1,2,3이니 4번째가 오면 된다. 즉 2013.01.04에 해당하는 값이다. 9. iloc 안에서 슬라이스도 가능하다. 10. 특정 상수값을 뽑아낸다. 11. Boolean 불린값, 즉 True인 경우의 데이터를 보여준다. 11. isin..

파이썬/판다스 2022.09.05

[판다스 10분 요약 2] Viewing data 데이터 보기

1. head(), tail() 앞 부분, 끝 부분만 보여준다. 2. index, columns 보기 3. to_numpy() 데이터를 넘파이 배열(행렬)로 정열해서 보여준다. 데이터가 모두 실수형일 때는 빠르고 효율적이지만 데이터가 혼합형일 때는 상대적으로 소요되는 비용이 크다. 참고로 to_numpy()로 데이터를 보여줄 때는, index와 column은 포함하지 않는다. 4. describe() 데이터를 분석한 요약본을 보여준다. count 수, mean 평균, std 표준편차, min 최소값, max 최대값, X% X퍼센트에 해당하는 값 5. transpose(), T 트랜스포즈란 대각선을 기준으로 열과 행의 위치를 바꾼다. 예를 들어 (4,1) 자리는 (1, 4)가 되는 것을 뜻한다. 6. so..

파이썬/판다스 2022.09.05