목록이상치 (2)
Allen's 데이터 맛집

Z-score는 주어진 데이터 포인트가 해당 데이터 집합에서 어떤 위치에 있는지를 나타내는 통계적인 측정 지표입니다. 이는 평균으로부터의 표준 편차의 수치로 표현됩니다. 장점 1. 표준화: 데이터를 평균과 표준 편차를 기반으로 표준화하여 서로 다른 스케일의 데이터를 비교할 수 있습니다. 2. 이상치 탐지: 표준화된 데이터에서 임계값을 설정하여 이상치를 식별할 수 있습니다. 단점 1. 정규 분포 가정: Z-score는 데이터가 정규 분포를 따른다고 가정합니다. 만약 데이터가 정규 분포를 따르지 않는 경우 결과가 왜곡될 수 있습니다. 2. 이상치 영향: 이상치가 있는 경우 평균과 표준 편차가 왜곡될 수 있으며, 이에 따라 Z-score도 왜곡될 수 있습니다. 사용 시기 1. 이상치 탐지: 데이터에서 이상치를..
데이터 전처리는 데이터를 분석하기 쉽고 정확하게 만들기 위해 필요한 과정입니다. 이는 데이터를 클렌징하고 변환하여 분석에 적합한 형태로 만드는 작업을 포함합니다. 결측값과 이상값 처리 결측값은 데이터 내에서 누락된 값으로, 이를 처리하지 않으면 분석 결과에 왜곡을 유발할 수 있습니다. 보통 평균값이나 중간값으로 대체하거나 해당 데이터를 삭제합니다. 이상값은 대부분 정상 범위를 벗어난 값으로, 이는 분석 결과에 부정적인 영향을 미칠 수 있습니다. 주로 이상값을 제거하거나 대체하는 방법을 사용합니다. 분석 변수 처리 변수 선택은 분석에 유용한 변수들을 선택하는 과정으로, 불필요한 변수를 제거하여 모델의 복잡성을 줄이고 성능을 향상시킵니다. 차원 축소는 데이터 세트의 차원을 줄이는 작업으로, 중요한 정보를 유..