본문 바로가기
데이터 꿀팁

적합한 품질의 데이터로 변환하는 방법

by 아르지아 2023. 5. 1.

 

데이터 변환 방법

데이터 변환의 이해

  • 데이터 분석 목적에 따라 데이터를 변환시켜주는 것이 데이터 처리, 분석에 효율적이다
  • 데이터 변환은 데이터의 특정 변수를 정해진 법칙에 따라 바꿔주는 것을 의미한다.
  • 데이터들에 대한 유형은 정형, 반정형, 비정형 등의 유형 또는 연속형, 범주형 등으로 구분하여 기록하고 기록된 데이터 유형 정보를 토대로 데이터 변환 여부를 결정한다.
  • 일반적인 측정 데이터 변환 방법은 표준화, 정규분포화, 범주화, 개수 축소, 차원 축소, 시그널 데이터 압축 등이 있다.
  • 가장 많이 사용되는 표준화 방법은 표균 정규 분포의 특성을 이용하며, 비교 집단 사이의 평균과 표준편차가 다르거나, 측정 척도가 서로 다른 경우, 변수 간 직접적인 비교가 불가능한 경우 등에 사용되어, 집단 가의 측정 변수들에 대한 값의 차이를 서로 비교할 때 용이하다. 

데이터 변환

  • 대표적으로 개수축소(총계), 표준화(변수변환), 범주화(평활) 기법을 설명하면 다음과 같다.
  • 총계는 두 개 이상의 샘플을 하나의 샘플로 합산하는 방법이고, 변수 변환의 변숫값을 x라고 할 때, y=f(x)의 함수를 이용해 변숫값을 일괄 적용하여 새로운 변수를 생성하는 기법이다.
  • 평활 범주화 방법은 데이터 집합에 존재하는 잡음으로 인해 거칠게 분포된 데이터를 매끄럽게 만드는 기법으로서 구간화, 군집화 등이 사용된다. 

RDBMS를 이용한 데이터 변환, 저장

  • 수집 데이터를 변환, 저장하기 위해서 비정형 데이터를 정형 데이터 형태로 저장하는 방식, 수집 데이터를 분산 파일시스템으로 저장하는 방식, 주제별, 시계열적으로 저장하는 방식, Key값 형태로 저장하는 방식 등을 이용한다.
  • 비정형 데이터를 정형 데이터인 시계열 데이터의 경우 데이터들은 계절별, 월별, 일별 등과 같이 시간에 따라 관측되어 시간의 영향을 받는다. RDBMS 시스템을 이용하여 시계열 데이터를 분석하는 경우 시계열 분석을 통하여 현재까지 수집된 데이터를 분석함으로써 미래에 대한 데이터값을 예측한다. 이 경우 시간의 일차, 이차 등의 다항함수를 비롯한  선형 모형과 경우에 따라 비선형 데이터 분석 모형을 사용하기도 한다.
  • RDBMS의 주요 솔루션은 다음과 같다. 여기서 RDBMS은 데이터를 2차원 테이블 형태로 표현하여 데이터를 생성, 수정, 관리할 수 있도록 하는 소프트웨어들이다.

MySQL를 이용한 데이터 변환, 저장

  • 오라클에서 제공하는 MySQL은 관계형 데이터베이스 시스템으로서 다음과 같은 특징이 있다.
  • 호환성 : 운영체계 (리눅스, 윈도우 등)에 무관하게 사용 가능
  • 이중 라이선스 : 일반 사용자 무료 사용(GPL), 상업적 목적은 별도 구매
  • 처리 속도 : DBMS 중 처리 속도가 빠름
  • 데이터 처리 : 대용량 데이터도 손쉽게 처리 
  • MySQL DBMS는 다음과 같이 MySQL 엔진(SQL 인터페이스, 파서, 옵티마이저, 캐시 및 버퍼) 스토리지(SQL 수행 결과를 스토리지에 저장, Read 기능 수행), 핸들러(API, MySQL 엔진과 스토리지 엔진 간 상호 연동 기능 제공)로 이루어진다.

 

댓글