본문 바로가기
데이터 꿀팁

데이터마이닝이란? (개념, 분석 방법, 추진 단계)

by 아르지아 2023. 4. 29.

 

데이터마이닝

개요

  • 데이터마이닝은 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다.

 

통계분석과의 차이점

  • 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미 있는 정보를 찾아내는 방법이다. 

 

사용 분야

  • 병원에서 환자 데이터를 이용해서 해당 환자에게 발생 가능성이 높은 병을 예측
  • 기존 환자가 응급실에 왔을 때 어떤 조치를 먼저 해야 하는지를 결정
  • 고객 데이터를 이용해 해당 고객의 우량/불량을 예측해 대출 적격 여부 판단
  • 세관 검사에서 입국자의 이력과 데이터를 이용해 관세 물품 반입 여부를 예측

데이터마이닝의 최근 환경

  • 데이터마이닝 도구가 다양하고 체계화되어 환경에 적합한 제품을 선택하여 활용 가능하다.
  • 알고리즘에 대한 깊은 이해가 없어도 분석에 큰 어려움이 없다.
  • 분석 결과의 품질은 분석가의 경험과 역량에 따라 차이가 나기 때문에 분석 과제의 복잡성이나 중요도가 높으면 풍부한 경험을 가진 전문가에게 의뢰할 필요가 있다.
  • 국내에서 데이터마이닝이 적용된 시기는 1990년대 중반이다.
  • 2000년대에 비즈니스 관점에서 데이터마이닝이 CRM의 중요한 요소로 부각되었다.
  • 대중화를 위해 많은 시도가 있었으나, 통계학 전문가와 대기업 위주로 진행되었다.

 

데이터마이닝 추진단계

1단계 : 목적 설정

  • 데이터마이닝을 통해 무엇을 왜 하는지 명확한 목적을 설정한다.
  • 전문가가 참여해 목적에 따라 사용한 모델과 필요한 데이터를 정의한다.

2단계 : 데이터 준비

  • 고객 정보, 거래 정보, 상품 마스터 정보, 웹로그 데이터, 소셜 네트워크 데이터 등 다양한 데이터를 활용한다.
  • IT 부서와 사전에 협의하고 일정을 조율하여 데이터 접근 부하에 유의하여야 하며, 필요시 다른 서버에 저장하여 운영에 지장이 없도록 데이터를 준비한다.
  • 데이터 정제를 통해 데이터의 품질을 보장하고, 필요시 데이터를 보강하여 충분한 양의 데이터를 확보했다.

3단계 : 가공

  • 모델링 목적에 따라 목적 변수를 정의한다.
  • 필요한 데이터를 데이터마이닝 소프트웨어에 적용할 수 있는 형식으로 가공한다.

4단계 : 기법 적용

  • 1단계에서 정확한 목적에 맞게 데이터마이닝 기업을 적용하여 정보를 추출한다.

5단계 : 검증

  • 데이터마이닝으로 추출된 정보를 검증한다.
  • 테스트 데이터와 과거 데이터를 활용하여 최적의 모델을 선정한다.
  • 검증이 완료되면 IT부서와 협의해 상시 데이터마이닝 결과를 업무에 적용하고 보고서를 작성하여 추가 수익과 투자 대비 성과등으로 기대 효과를 전파한다.

데이터마이닝을 위한 데이터 분할

개요

  • 모델 평가용 테스트 데이터와 구축용 데이터로 분할하여, 구축용 데이터로 모형을 생성하고 테스트 데이터로 모형이 얼마나 적합한지를 판단한다.

데이터 분할

  • 구축용 : 추정용, 훈련용 데이터라고도 불리며 데이터마이닝 모델을 만드는 데 활용한다.
  • 검정용 : 구축된 모형의 과대 추정 또는 과소 추정을 미세 조정을 하는데 활용한다.
  • 시험용 : 테스트 데이터나 과거 데이터를 활용하여 모델의 성능을 검증하는데 활용한다.
  • 데이터의 양이 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우
    가) 홀드아웃 방법 : 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법으로 주로 학승용과 시험용으로 분리하여 사용한다.
    나) 교차확인 방법 : 주어진 데이터를 k개의 하부 집단으로 구분하여, k-1개의 집단을 학습용으로 나머지는 하부 집단으로 검증용으로 설정하여 학습한다. k번 반복 측정한 결과를 평균낸 값을 최종값으로 사용한다. 주로 10-fold 교차분석을 많이 사용한다.
  •  

 

댓글