Python

결측치 처리, pandas, dropna

summerorange 2022. 4. 15. 11:30
반응형

* dropna의 parameter 값 들이다

def dropna(axis: Axis=0, how: str='any', thresh=None, subset=None, inplace: bool=False)

1. library 호출

import numpy as np
import pandas as pd

2.  데이터 구조 만들어서 판다스 형태로 저장

df = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})

3. 결측치 값 모두 삭제. 영구 삭제하려면 (inplace = True), 대소문자 주의

df.dropna()

4. 행말고 열삭제

df.dropna(axis=1)

5. thresh: NA가 아닌 값을 말한다. na가 없는 값이 총 몇 개가 되어 달라 라는 뜻.

df.dropna(thresh=3)

na가 없이 총 3개의 데이터 값이 나오도록 만들어 달라. 

6. subset 해당 열의 값의 NA만 신경씀

df.dropna(subset=['A'])

7. NA값 채우기

df.fillna(value='FILL VALUE')

8. 채우는데 평균값으로 채움

df.fillna(df.mean())
df['A'].fillna(value=df['A'].mean())
반응형