개발/Data Science

Data Science - 이상치 & 결측치

huiyu 2023. 3. 24. 19:17

1. 이상치

- 이상치 : 중심 경향성에서 멀리 떨어진 값
- 이상치의 처리 방법
 1) 이상치 처리에 절대적인 기준은 없음
 2) 대표적으로 Carling, Tukey 방법이 존재
 3) 분포 기반으로 처리도 가능

2. 결측치

- 결측치 : 갑싱 기록되지 않고 비어있음
- 결측치의 처리 방법
 1) 결측치 처리에 절대적인 기준은 없음
 2) 단순 제거와 특정 값으로 대체하는 방식이 있음
 3) 분석 데이터에서 결측치가 차지하는 비중이 낮은 경우 단순 제거하는 경우가 많음

3. 판다스 함수

- pandas - isna(), iusnull()
 1) 결측치 원소를 True, 관측치를 False로 반환하는 메소드
 2) 반대의 기능을 하는 메서드는 notna()와 notnull()

- pandas - fillna()
 1) 결측치를 채워 넣기 위한 메서드
 2) value 인자에 결측치를 채워 넣을 값을 입력하며 딕셔너리 사용 가능
 3) method에 'bfill'은 뒤의 값을, 'ffill'은 앞의 값을 참고하여 결측 처리

+

dropna()
quantile()

 

728x90
반응형