본문 바로가기
데이터 꿀팁

분석용 데이터세트 정제

by 아르지아 2023. 5. 1.

 

데이터 정제 절차

데이터 오류

  • 원시 데이터 측정 시 보통 결측치, 잡음, 이상치 등이 포함되어 있어 잘못된 분석 결과를 나타낼 수 있으므로 수집된 데이터를 정제하는 과정이 필수적으로 요구된다.
  • 데이터 오류를 일으키는 주요 요소들은 결측치, 잡음, 이상치 이다. 그리고 측정 오차에 의해 오류가 발생하기도 한다.
  • 결측치란, 측정된 샘플에서 누락된 변숫값을 나타낸다. 결측치는 오류로 인해 발생할 수도 있지만, 단순히 조사 대상이 측정을 원하지 않을 때에도 발생한다. 따라서 결측치는 원시 데이터에서 어렵지 않게 볼 수 있는 오류를 이를 해결하기 위하여 샘플 제거, 해당 변수 제거, 결측치 무시, 결측치 추정 등의 방법을 이용한다.
  • 잡음이란, 데이터를 측정하는 데 있어서 여러 가지 이유로 개입되는 임의적인 요소로써 변숫값을 본래의 참값에서 벗어나게 하는 오류이다. 즉 데이터 측정 중에는 대상이 가지고 있는 속성값을 있는 그대로의 숫자 또는 기호에서 벗어나게 하는 원하지 않는 임의의 요소들이 개입될 수 있고, 이로 인해 대상이 잘못 측정되어 참값에서 벗어난 정도를 잡음이라고 한다.
  • 잡음이 포함된 데이터는 잘못된 데이터 분석 결과로 이어지기 때문에 정확한 측정을 통해 고품질의 데이터를 수집하는 일은 데이터 분석의 중요한 요소이다.
  • 예를 들어 대학생의 스마트폰 데이터 사용량 변화 추이를 분석하고자 하는 경우, 실험 참가자를 모집하여 참가자마다, 월 데이터 사용량을 스마트폰에 탑재된 애플리케이션을 통해 메가바이트 단위로 기록하여 측정한다. 만일, 통신상의 문제로 애플리케이션 내에 사용량이 잘못 기록되었다면 잡음이 발생했다고 할 수 있으며, 데이터 수집자가 단순히 숫자를 잘못 기록한 것 또한 측정 오류에 해당한다. 측정을 통해 수집된 데이터 집합은 통계 기법을 사용하여 데이터 사용량 변화 추이에 대한 탐색적 데이터 분석을 수행하고, 그것으로 모집단에 대한 특징을 올바르게 끌어내는 것이 분석의 결과가 된다. 
  • 잡음을 제거하는 일은 비용이 많이 들고, 완전히 제거하는 것은 사실상 불가능하다. 일반적으로 잡음을 제거하기 위해 구간화, 군집화, 회귀모형 변환 등의 방법을 이용한다.
  • 구간화는 연속 변수를 다수의 작은 구간으로 나누고, 동일한 구간에 속한 변숫값들을 하나의 변값으로 변환하는 방법이고, 군집화는 데이터 집합을 수 개의 군집으로 묶은 뒤 동일 군집의 데이터들을 그것의 대푯값으로 치환하는 방법이다. 그리고 회귀모형을 이용한 방법에서는 회귀 모형을 추정하여 모형 위에 있는 변숫값으로 변환하는 방법으로, 예를 들어 선형 회귀 모형 y=ax+b를 추정하고 x에 변숫값을 입력하여 산출되는 y값들을 변숫값으로 하는 변수를 생성한다. 아래 그림은 잡음이 있는 데이터를 직선 회귀 모형을 이용해 평활한 예이다.

댓글