Allen's 데이터 맛집

이상값(Outlier)의 개념, 원인 그리고 검출 방법 본문

Data Analysis/통계&분석

이상값(Outlier)의 개념, 원인 그리고 검출 방법

Allen93 2023. 10. 21. 16:09

이상값(Outliers)은 일반적인 데이터 패턴에서 벗어난 값으로, 데이터 분석 과정에서 중요한 역할을 합니다. 이상값은 일반적으로 다음과 같은 특징을 가집니다.

 

이상값

이미지출처:https://brunch.co.kr/@mbook/12



개념과 특징:


이상값은 데이터 분포에서 일반적인 규칙을 벗어난 값으로, 예를 들어 극단적으로 크거나 작은 값일 수 있습니다.
이상값은 데이터 분석 결과를 왜곡시키고 모델의 정확성을 저하시킬 수 있으며, 이로 인해 중요한 패턴을 감추거나 왜곡할 수 있습니다.

 


이상값 발생 원인:


이상값은 주로 측정 오류, 이상치 데이터 입력, 자연적인 변동, 이상치 자체의 특이성 등 다양한 요인으로 인해 

발생할 수 있습니다. 예를 들어, 센서 오작동, 사람의 실수, 현상의 예외적인 동작 등이 있습니다.

 


이상값 검출 방법:

 

ESD (Extreme Studentized Deviate) 검정: ESD는 이상치를 식별하는 데 사용되는 통계 기법으로, 표본 데이터의 표준 편차와 평균을 기반으로 특이치를 식별합니다.

사분위수 사용: 사분위수는 데이터를 백분위로 분할하여 이상치를 식별하는 데 사용됩니다. 보통 IQR(Interquartile Range)을 기반으로 하며, 이를 이용하여 상자 그림(Box Plot)을 생성하여 이상치를 시각적으로 확인할 수 있습니다.

기하평균: 기하평균은 데이터의 중심 경향성을 측정하는 데 사용되며, 데이터의 로그 값을 취한 후 평균을 계산합니다. 이상치가 포함된 데이터에서 기하평균은 평균보다 더 안정적인 추정치를 제공할 수 있습니다.

데이터 시각화: 데이터 시각화는 상자 그림, 산점도, 히스토그램 등을 사용하여 이상치를 시각적으로 식별하는 데 유용합니다. 특히 산점도 행렬 및 이상치를 시각적으로 표시하는 그래프는 이상치를 찾는 데 도움이 됩니다.

분석 기법 활용: 비지도 학습의 군집 기법, 마할라노비스 거리, LOF (Local Outlier Factor), Isolation Forest 등은 이상치를 식별하는 데 유용한 다양한 알고리즘입니다. 이들은 데이터의 패턴과 밀접하게 관련된 이상치를 식별하고 특이치를 분류하는 데 활용됩니다.

 

 

 


예를 들어, 주식 가격 데이터에서 이상값은 특정 시점에 급격한 변동이나 이상한 가격을 가질 수 있습니다. 이를 식별하기 위해 시각화 기법을 사용하여 주가의 특이한 움직임을 확인하고, 그에 따라 이상치를 찾아내는 것이 가능합니다. 데이터 분석에서 이상값을 올바르게 처리하는 것은 정확한 결과 도출을 위해 매우 중요한 단계입니다.