[태그:] 데이터클리닝

데이터 클리닝(Data Cleaning):
결측치(Missing Value)와 이상치(Outlier), 어디까지 처리해도 될까? 데이터 분석에 투입되는 시간의 80%는 전처리(Pre-processing)에 쓰인다는 말이 있습니다.흔히 데이터 클리닝(Data Cleaning)이라 부르는 단계죠. 막상 데이터를 정리하다 보면 이런 고민이 꼭 생깁니다. 데이터 클리닝은 단순히 엑셀을 깔끔하게 만드는 작업이 아닙니다.이 단계에서의 판단 하나하나가 분석의 타당성과 논문의 신뢰도를 좌우합니다. 이번 글에서는 ✔ 이상치와 결측치가 무엇인지✔ 어떤 기준으로 판단해야 하는지✔ 논문에서…
