데이터 클리닝(Data Cleaning):

image 5 데이터 클리닝(Data Cleaning):

결측치(Missing Value)와 이상치(Outlier), 어디까지 처리해도 될까?

데이터 분석에 투입되는 시간의 80%는 전처리(Pre-processing)에 쓰인다는 말이 있습니다.
흔히 데이터 클리닝(Data Cleaning)이라 부르는 단계죠.

막상 데이터를 정리하다 보면 이런 고민이 꼭 생깁니다.

  • “이 값… 지워도 되는 걸까?”
  • “결측치가 있는데 그냥 분석해도 되나?”

데이터 클리닝은 단순히 엑셀을 깔끔하게 만드는 작업이 아닙니다.
이 단계에서의 판단 하나하나가 분석의 타당성과 논문의 신뢰도를 좌우합니다.

이번 글에서는

✔ 이상치와 결측치가 무엇인지
✔ 어떤 기준으로 판단해야 하는지
✔ 논문에서 안전한 처리 원칙은 무엇인지

차근차근 정리해볼게요 😊


1️⃣ 이상치(Outlier): 무조건 지우면 안 되는 이유

image 6 데이터 클리닝(Data Cleaning):

✔ 이상치란?

이상치는 전체 데이터의 일반적인 패턴에서 유난히 벗어난 값을 말합니다.

예를 들면,

  • 대부분 응답이 2~5점인데 혼자 99점
  • 평균 연령이 35세인데, 3세 또는 150세
  • 소득 분포 대부분이 월 200~500만 원인데, 혼자 1억

이런 값들이 바로 이상치 후보입니다.

⚠️ 하지만 여기서 가장 중요한 점은,

모든 이상치는 삭제 대상이 아니라는 것!

🚨 이상치를 무조건 지우는 것은
연구자의 편향이 개입될 수 있는 위험한 선택입니다.


🔍 이상치를 판단하는 두 가지 기준

이상치는 반드시
“틀린 값인가?” vs “의미 있는 극단값인가?”
를 구분해서 판단해야 합니다.

✅ ① 통계적 기준

가장 많이 쓰이는 기준입니다.

  • Boxplot 기준
    • Q1 − 1.5×IQR 이하
    • Q3 + 1.5×IQR 이상
      → SPSS 탐색적 분석만 돌려도 바로 확인 가능
  • Z-score 기준
    • |Z| ≥ 3.0 (보수적으로 2.5)
      → 표준화했을 때 극단적으로 먼 값

📌 단, 통계적으로 튄다고 해서 바로 삭제하면 안 됩니다.


✅ ② 이론·현실적 기준 (논문에서 더 중요!)

통계적으로 이상해 보여도
👉 연구 대상 정의에 부합하는 실제 가능한 값인가? 를 먼저 봐야 합니다.

예를 들어,

  • 소비자 연구에서 월 소비 1,000만 원 → 고소득층 연구라면 정상
  • 초등학생 조사에서 연령 45세 → 입력 오류 가능성 매우 큼

👉 이상치는 숫자보다 ‘의미’로 판단해야 합니다.


image 7 데이터 클리닝(Data Cleaning):

📊 이상치 처리 방법과 선택 기준

중요한 건
❌ “이상치를 제거했다”가 아니라
“왜 그렇게 처리했는가” 입니다.

처리 방법언제 사용?주의점
삭제명백한 입력 오류삭제 이유 반드시 설명
값 수정오타가 명확할 때임의 수정 ❌
변환분포 왜곡이 심할 때해석 방식 달라짐
유지의미 있는 극단값유지 논리 제시 필수

✔ 자주 쓰이는 보완 방법

  • 윈저라이징(Winsorizing)
    • 극단값을 상·하위 경계값으로 대체
    • N 유지 + 영향력 완화
  • 로그 변환(Log transformation)
    • 왜도가 큰 분포를 완화
    • 이상치를 직접 제거하지 않음

2️⃣ 결측치(Missing Value): 빈칸에도 이유가 있다

결측치는 단순한 “빈칸”이 아닙니다.
👉 값이 빠진 ‘이유’가 있는 상태입니다.

그래서 결측치를 보면 가장 먼저 던져야 할 질문은 하나예요.

“왜 비어 있을까?”


🔍 결측치 유형: 왜 빠졌는가?

✅ MCAR (완전 무작위 결측)

  • 실수로 문항을 건너뜀
  • 분석에 큰 영향 없음
  • 삭제해도 편향 거의 없음

✅ MAR (무작위 결측)

  • 특정 변수와 관련해 누락
    (예: 여성이 남성보다 체중 문항을 더 회피)
  • 가장 흔한 유형
  • 대치법 권장

✅ MNAR (비무작위 결측)

  • 결측 이유가 변수 자체
    (예: 고소득자가 소득 문항 회피)
  • 가장 위험
  • 분석 결과 왜곡 가능성 큼

📊 결측치 처리 방법과 기준

✔ 결측치 비율부터 확인

  • 전체의 5% 미만
    → 목록 삭제(Listwise) 가능

✔ 다중 대치(Multiple Imputation)

  • 결측치 많고 핵심 변수일 때
  • MAR, MNAR 상황에서 권장
  • 논문에서 가장 안전한 선택

✔ 평균 대체

  • MCAR 가정
  • 분산 축소 위험
  • ❗ 되도록 피할 것

image 9 데이터 클리닝(Data Cleaning):

📌 데이터 클리닝에서 가장 중요한 것: 투명성

기준 없는 클리닝은
👉 전처리가 아니라 조작으로 보일 수 있습니다.

논문에는 반드시 다음을 명시해야 합니다.

  • 결측치 수와 처리 방법
  • 결측 메커니즘 판단 근거
  • 이상치 판별 기준
  • 제외된 케이스 수와 이유

✨ 핵심 정리

  • 이상치·결측치는 제거 대상이 아니라 판단 대상
  • 통계 기준 + 이론 기준을 함께 사용
  • 중요한 건 “무엇을 했는가”보다 “왜 그렇게 했는가”

Garbage in, Garbage out.

입력 데이터가 정리되지 않았다면,
아무리 고급 통계 기법을 써도 결과는 흔들릴 수밖에 없습니다.

데이터 클리닝은
결과를 좋게 보이게 만드는 작업이 아니라,
연구의 신뢰성과 해석 가능성을 지키는 가장 기본적인 연구 윤리입니다 👍