본문 바로가기
데이터 꿀팁

데이터 변환 후 품질 검증하는 방법

by 아르지아 2023. 5. 1.

 

데이터 수집 및 점검 프로세스

  • 데이터 분석 목표와 프로젝트 계획에 따라 데이터 분석 시작 전에 현재 보유하고 있는 데이터에 대한 품질 수준을 점검한다.
  • 이를 통하여 보유 데이터 중 어떤 시스템의 데이터, 보관 데이터 중 어느 주제 영역의 데이터 등을 활용할 수 있을지 사전에 파악할 수 있으므로 빅데이터 분석 기획과 데이터 탐색 시간을 절약할 수 있다.
  • 데이터의 품질 점검을 위한 데이터 수집 및 점검 프로세스는 아래와 같이 데이터 상황 점검, 데이터 수집 경로 및 데이터 유형 파악, 데이터별 활용정보 점검으로 이루어진다.
  •  

데이터 상황 점검

  • 데이터 분석 목표 정의서에서 작성된 필요 데이터에 대해 상세 조사를 통해 최종적으로 활용 가능한 데이터를 선별한다.
  • 필요 데이터를 요약하기 위해서 데이터 분석 목표 정의서에서 조사된 데이터 조사 목록을 바탕으로 해당 데이터를 어떠한 목의 관점으로 사용 가능한지에 대해 요약정보를 구성한다. 이를 통해 데이터 탐색 시간을 줄일 수 있으며, 효율적인 데이터 선별과 저장이 가능하다.
  • 데이터의 품질 점검을 위하여 데이터 탐색 단계 전에 대상 데이터들에 대한 분량과 품질 수준을 점검한 후 정리하며, 이를 데이터 분석 전문가에게 전달한다.
  • 데이터 품질수준의 주요 점검 항목은 다음과 같다. 데이터 분량 : 테이블 컬럼별 축적 기간에 따른 분량 확인, 데이터 완전성 : 데이터의 누락 여부 및 결측값의 비율 점검, 데이터 일관성 : 데이터 유형 확인 및 데이터 상위, 하위 간 관계에서의 값의 일치성 확인, 데이터 정확성 : 데이터의 편향성과 분산 점검
  • 위 항목을 점검한 후, 필요 데이터에 대한 요약 정보를 작성하고 데이터 분석 전문가에게 전달하여, 데이터의 선택과 활용에 도움이 되도록 한다.
  • 외부 데이터의 경우에도 최대한 확인 가능한 수준까지 요약 통계 형식의 품질 확인 내용을 기록하여 제공한다.

데이터별 활용정보 점검

  • 수집 대상의 데이터가 제대로 수집되었는지는 데이터의 누락 여부, 소스 데이터와의 비교, 데이터의 정확성, 보안 및 저작권 점검, 대량 트래픽의 발생 여부 등으로 구분하여 검증한다.
  • 보안 점검과 관련되어 데이터별로 개인정보 비식별 검증과 함께 외부 데이터 수집 및 데이터 공개 시 점검 내용을 확인하고 최종적으로 데이터 분석결과를 활용하기 위한 데이터 컴플라이언스를 점검한다. 규제 준수란, 외부 규제나 표준을 정의하고 지속적인 관찰을 통해 준수여부를 확인하며, 발견된 문제를 개선하고 발전시켜 나가는 활동이다. 이는 기업이 비즈니스 연속성과 경영의 투명성을 확보하기 위해, 강제적, 자율적으로 여러 가지 규제를 준수하는 것을 의미하고, 특히 데이터 컴플라이언스에서는 문제를 개선하기 위하여 빅데이터 분석기술을 활용한다.

데이터 품질 관리

  • 데이터 품질 관리는 비즈니스 목표에 부합한 데이터 분석을 위해 가치성, 정확성, 유용성 있는 데이터를 확보하고, 신뢰성 있는 데이터를 유지하는 데 필요하는 관리 활동이다.
  • 데이터 품질 관리는 분석 결과의 신뢰성을 확보하는데 중요하며, 빅데이터의 특성을 반영하여 데이터 품질관리 체계를 구축하여 효과적인 분석 결과를 도출할 수 있도록 노력하여야 한다.
  • 빅데이터 품질 관리의 중요성을 네 가지로 요약하면 다음과 같다. 데이터 분석 결과의 신뢰성 확보 : 분석 품질을 좌우하는 것은 데이터 품질에 기인, 일원화된 프로세스 : 업무 처리, 데이터 관리의 효율성 도모, 데이터 활용도 향상 : 고품질의 데이터 확보로 데이터 이용률 향상, 양질의 데이터 확보 : 불필요한 데이터 제거를 통한 고품질 데이터 준비도 향상

 

댓글