Allen's 데이터 맛집

Z-Score 란? 본문

Data Analysis/통계&분석

Z-Score 란?

Allen93 2024. 2. 14. 00:40
Z-score는 주어진 데이터 포인트가 해당 데이터 집합에서 어떤 위치에 있는지를 나타내는 통계적인 측정 지표입니다. 이는 평균으로부터의 표준 편차의 수치로 표현됩니다. 

 

 


 

장점


1. 표준화: 데이터를 평균과 표준 편차를 기반으로 표준화하여 서로 다른 스케일의 데이터를 비교할 수 있습니다.
2. 이상치 탐지: 표준화된 데이터에서 임계값을 설정하여 이상치를 식별할 수 있습니다.

 


단점


1. 정규 분포 가정: Z-score는 데이터가 정규 분포를 따른다고 가정합니다. 만약 데이터가 정규 분포를 따르지 않는 경우 결과가 왜곡될 수 있습니다.
2. 이상치 영향: 이상치가 있는 경우 평균과 표준 편차가 왜곡될 수 있으며, 이에 따라 Z-score도 왜곡될 수 있습니다.

 


사용 시기


1. 이상치 탐지: 데이터에서 이상치를 식별하고 싶을 때 사용합니다.
2. 데이터 스케일링: 서로 다른 스케일의 데이터를 비교하거나 모델링할 때 사용합니다.

 

 

 

 

 

 

Z-score는 다음과 같이 계산됩니다:

 

 

 

- X는 개별 데이터 포인트입니다.
- μ는 데이터 집합의 평균입니다.
- σ는 데이터 집합의 표준 편차입니다.

 


Z-score는 데이터 포인트가 평균으로부터 얼마나 떨어져 있는지를 보여줍니다. 예를 들어, Z-score가 양수인 경우 데이터 포인트가 평균보다 높은 값을 갖는 것이며, 음수인 경우 평균보다 낮은 값을 갖는 것입니다. Z-score가 크면 클수록 데이터 포인트는 해당 분포에서 더 멀리 떨어져 있다고 볼 수 있습니다.

 


이상치를 분석하는 데 Z-score를 사용하는 방법은 일반적으로 다음과 같습니다:

 


1. 데이터셋에서 각 데이터 포인트의 Z-score를 계산합니다.


2. 일정한 임계값을 정하여, 그 값보다 큰 Z-score를 가지는 데이터 포인트를 이상치로 간주합니다. 보통 이 임계값은 2 또는 3이 선택됩니다.


3. 이상치로 간주되는 데이터 포인트를 식별하고, 해당 데이터 포인트를 검토하여 실제로 이상치인지 여부를 확인합니다. 때로는 이상치로 분류되는 데이터 포인트가 예외적인 경우도 있으므로 이를 확인하는 것이 중요합니다.


4. 이상치가 확인되면, 해당 데이터 포인트를 분석에서 제외하거나 다른 처리를 할 수 있습니다.

 


Z-score를 사용한 이상치 분석은 데이터셋의 분포와 각 데이터 포인트의 상대적 위치를 고려하여 이상치를 식별할 수 있습니다. 그러나 이상치를 식별하기 위한 임계값을 선택하는 것은 주관적인 결정이며, 데이터의 특성과 분포를 고려하여 결정해야 합니다.