본문 바로가기
데이터 꿀팁

데이터 분석 기법의 이해

by 아르지아 2023. 4. 29.

 

데이터 처리

개요

  • 데이터 분석은 통계에 기반을 두고 있지만, 통계 지식과 복잡한 가정이 상대적으로 적은 실용적인 분야이다.

활용

  • 대기업은 데이터웨어하우스와 데이터마트를 통해 분석 데이터를 가져와서 사용한다.
  • 신규 시스템이나 DW에 포함되지 못한 자료의 경우, 기존 운영시스템이나 스테이징 영역에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 활용할 수 있다.
  • 하지만 운영시스템에 직접 접근해 데이터를 활용하는 것은 매우 위험한 일이므로 거의 이루어지지 않고 있으며, 스테이징 영역의 데이터는 운영시스템에서 임시로 저장된 데이터이기 때문에 가급적이면 클린징 영역인 ODS에서 데이터의 전처리를 해서 DW나 DM과 결합하여 활용하는 것이 가장 이상적이다.

최종 데이터 구조로 가공

1) 데이터마이닝 분류

  • 분류값과 입력 변수들을 연관시켜 인구 통계, 요약 변수, 파생 변수 등을 산출한다.

2) 정형화된 패턴 처리

  • 비정형 데이터나 소셜 데이터는 정형화된 패턴으로 처리해야 한다.
  • 가) 비정형 데이터
    DBMS에 저장됐다가 텍스트 마이닝을 거쳐 데이터 마트와 통합한다.
  • 나) 관계형 데이터
    DBMS에 저장되어 사회 신경망 분석을 거쳐 분석 결과 통계값이 마트와 통합되어 활용된다.

시각화(시각화 그래프)

  • 시각화는 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다도 더 효율적이다.
  • 대용량 데이터를 다루는 빅데이터 분석에서 시각화는 필수이다.
  • 탐색적 분석을 할 때 시각화는 필수이다.
  • SNA 분석(사회연결망 분석)을 할 때 자주 활용된다.

 

공간분석(GIS)

  • 공간분석은 공간적 차원과 관련된 속성들을 시각화하는 분석이다.
  • 지도 위에 관련 속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분하여 인사이트를 얻는다.

 

탐색적 자료 분석(EDA)

개요

  • 탐색적 분석은 다양한 차원과 값을 조합해가며 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정으로 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 통칭이다. 프린스톤 대학의 튜키교수가 1977년 저서를 발표함으로 EDA가 등장한다.

EDA의 4가지 주제

  • 저항성의 강조, 잔차 계산, 자료 변수의 재표현, 그래프를 통한 현시성

탐색적 분석의 효율 예

  • 2과목 모형 개발 프로세스에서 언급한 바와 같이 데이터 이해 단계와 변수 생성 단계 그리고 변수 선택 단계에서 활용되고 있다.

 

통계 분석

통계

  • 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자와 표, 그림의 형태로 나타내는 것이다.

기술통계

  • 모집단으로부터 표본을 추출하고 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리하거나 요약하기 위해 하나의 숫자 또는 그래프의 형태로 표현하는 절차이다

추측(추론)통계

  • 모집단으로부터 추출된 표분의 표본통계량으로 부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차이다.

활용분야

  • 정부의 경제정책 수입과 평가의 근거자료로 활용 (통계청의 실업률, 고용률, 물가지수)
  • 농업 (가뭄, 수해 또는 병충해 등에 강한 품종의 개발 및 개량)
  • 의학 (의학적 치료 방법의 효과나 신약 개발을 위한 임상실험의 결과 분석)
  • 경영 (제품 개발, 품질관리, 시장조사, 영업관리 등에 활용)
  • 스포츠 (선수들의 체질향상 및 개선, 경기 분석과 전략 분석, 선수 평가와 기용 등)

 

 

댓글