목록데이터-변환 (2)
Allen's 데이터 맛집

데이터 품질 전처리에 대해 알아보겠습니다. 데이터를 분석하기 전에 필수적으로 거쳐야 하는 단계인 데이터 전처리에 대해 자세히 살펴보겠습니다. 데이터 품질 전처리 목적실제 공정에서 발생하는 데이터는 의미 없는 값이나 누락 및 오타가 발생하여 품질이 좋지 않을 수 있습니다. 품질이 낮은 데이터를 분석에 이용하면 좋은 결과를 얻기 힘들죠. 따라서 데이터 품질 전처리는 데이터 분석에 있어서 필수적인 단계입니다. 데이터 품질지수 세부 설명1. 완전성 품질지수 완전성 품질지수는 결측 데이터의 개수를 확인하여 데이터의 완전성을 평가합니다. - 계산 방법: 완전성 품질지수 = 1 - (결측 데이터의 개수 / 전체 데이터의 개수) * 100 - 결측 데이터가 30% 이상인 경우, 해당 열(column)을 삭제하는 것이..
데이터 변환 기술은 데이터를 보다 효과적으로 분석하고 모델링하기 위해 데이터의 형태를 변경하는 중요한 프로세스입니다. 데이터 비식별화 (Data De-identification): 예를 들어, 개인 정보 비식별화를 위해 가명처리, 총계처리, 데이터 값 삭제, 범주화, 데이터 마스킹 등의 방법을 사용합니다. 평활화 (Smoothing): 데이터의 잡음을 제거하고 추세에서 벗어나는 값을 변환하는 것으로, 예를 들어 구간화, 스플라인 보간법, 이동평균, 지수평활 등이 있습니다. 집계 (Aggregation): 통계 분석을 위해 데이터를 요약 형식으로 변환하는 과정으로, 지정된 기간에 걸쳐 평균, 최소, 최대, 합계, 개수 등을 계산합니다. 일반화 (Generalization): 특정 데이터를 범용 데이터에 적..