데이터 꿀팁15 분석용 데이터세트 정제 데이터 정제 절차 데이터 오류 원시 데이터 측정 시 보통 결측치, 잡음, 이상치 등이 포함되어 있어 잘못된 분석 결과를 나타낼 수 있으므로 수집된 데이터를 정제하는 과정이 필수적으로 요구된다. 데이터 오류를 일으키는 주요 요소들은 결측치, 잡음, 이상치 이다. 그리고 측정 오차에 의해 오류가 발생하기도 한다. 결측치란, 측정된 샘플에서 누락된 변숫값을 나타낸다. 결측치는 오류로 인해 발생할 수도 있지만, 단순히 조사 대상이 측정을 원하지 않을 때에도 발생한다. 따라서 결측치는 원시 데이터에서 어렵지 않게 볼 수 있는 오류를 이를 해결하기 위하여 샘플 제거, 해당 변수 제거, 결측치 무시, 결측치 추정 등의 방법을 이용한다. 잡음이란, 데이터를 측정하는 데 있어서 여러 가지 이유로 개입되는 임의적인 요소로.. 2023. 5. 1. 데이터 변환 후 품질 검증하는 방법 데이터 수집 및 점검 프로세스 데이터 분석 목표와 프로젝트 계획에 따라 데이터 분석 시작 전에 현재 보유하고 있는 데이터에 대한 품질 수준을 점검한다. 이를 통하여 보유 데이터 중 어떤 시스템의 데이터, 보관 데이터 중 어느 주제 영역의 데이터 등을 활용할 수 있을지 사전에 파악할 수 있으므로 빅데이터 분석 기획과 데이터 탐색 시간을 절약할 수 있다. 데이터의 품질 점검을 위한 데이터 수집 및 점검 프로세스는 아래와 같이 데이터 상황 점검, 데이터 수집 경로 및 데이터 유형 파악, 데이터별 활용정보 점검으로 이루어진다. 데이터 상황 점검 데이터 분석 목표 정의서에서 작성된 필요 데이터에 대해 상세 조사를 통해 최종적으로 활용 가능한 데이터를 선별한다. 필요 데이터를 요약하기 위해서 데이터 분석 목표 정의.. 2023. 5. 1. 적합한 품질의 데이터로 변환하는 방법 데이터 변환 방법 데이터 변환의 이해 데이터 분석 목적에 따라 데이터를 변환시켜주는 것이 데이터 처리, 분석에 효율적이다 데이터 변환은 데이터의 특정 변수를 정해진 법칙에 따라 바꿔주는 것을 의미한다. 데이터들에 대한 유형은 정형, 반정형, 비정형 등의 유형 또는 연속형, 범주형 등으로 구분하여 기록하고 기록된 데이터 유형 정보를 토대로 데이터 변환 여부를 결정한다. 일반적인 측정 데이터 변환 방법은 표준화, 정규분포화, 범주화, 개수 축소, 차원 축소, 시그널 데이터 압축 등이 있다. 가장 많이 사용되는 표준화 방법은 표균 정규 분포의 특성을 이용하며, 비교 집단 사이의 평균과 표준편차가 다르거나, 측정 척도가 서로 다른 경우, 변수 간 직접적인 비교가 불가능한 경우 등에 사용되어, 집단 가의 측정 변.. 2023. 5. 1. 빅데이터 의미와 효과 및 전망 빅데이터의 의미 빅데이터는 1990년 이후 인터넷이 확산되어, 정형화된 정보와 비정형 형태의 정보가 무수히 발생하면서 정보 홍수나 정보 폭발이라는 개념으로 논의되었고, 최근 '빅데이터'라는 개념으로 이어지게 되었다. 그동안 인터넷에서 발생한 수많은 정보는 인터넷 서비스 기업이 보관하거나 일부 상업적으로 이용되기도 하였다. 그리고 모바일 스마트 기기의 확산으로 개인과 관련된 비정형 데이터가 축적되면서 데이터는 더욱 증가하게 되었다. 특히 소셜미디어의 증가는 공적인 정보뿐만 아니라 사적인 정보까지 교류함으로써 빅데이터 시대의 시작을 알리는 계기가 되었다. 빅데이터 정의는 데이터 규모와 기술 측면에서 출발했으나, 최근 빅데이터의 가치와 활용 효과 측면으로 그 의미가 확대되고 있다. 빅데이터는 고객 정보와 같은.. 2023. 4. 30. 이전 1 2 3 4 다음