Allen's 데이터 맛집

불순도 측정 지표 - 지니 지수, 엔트로피 지수, 카이제곱 통계 유의확률 본문

Data Analysis/통계&분석

불순도 측정 지표 - 지니 지수, 엔트로피 지수, 카이제곱 통계 유의확률

Allen93 2024. 1. 14. 19:13
오늘은 머신러닝에서 목표변수가 범주형일 때, 모델의 불순도를 측정하는 중요한 지표들을 알아보려고 합니다. 지니지수, 엔트로피 지수, 카이제곱 통계량, 그리고 그 유의확률에 대해 함께 살펴봅시다.

 


1. 지니지수: 
지니지수는 불순도를 측정하는 지표 중 하나로, 0에서 1 사이의 값을 가집니다. 0에 가까울수록 데이터가 순수하게 한 클래스로 이루어져 있음을 의미하고, 1에 가까울수록 데이터가 여러 클래스로 섞여 있음을 나타냅니다. 머신러닝에서는 의사결정 트리의 노드 분할에서 주로 사용됩니다.

2. 엔트로피 지수:
엔트로피 지수는 정보 이론에서 유래한 개념으로, 데이터의 혼잡도를 나타냅니다. 엔트로피가 높을수록 데이터가 혼잡하게 섞여 있고, 낮을수록 정돈되어 있는 것을 의미합니다. 역시 0에서 1 사이의 값을 가지며, 의사결정 트리와 같은 모델에서 불순도를 측정하는 데 사용됩니다.

3. 카이제곱 통계량과 유의확률: 분할의 적절성 확인
카이제곱 통계량은 범주형 데이터 간의 독립성을 검정하는 데 사용되는 통계적 지표입니다. 두 범주형 변수 간의 관계가 유의미한지를 확인할 때 활용됩니다. 이 통계량을 계산한 후 유의확률(p-value)을 확인하여, 변수 간의 관계가 우연에 의한 것인지를 판단합니다.

예시로 살펴보기
예를 들어, 스팸 여부를 예측하는 모델에서 지니지수나 엔트로피 지수를 사용하면 해당 변수의 분포를 확인하고 불순도를 측정할 수 있습니다. 또한, 스팸 여부와 이메일의 제목에 특정 단어가 포함되는지 여부 사이의 독립성을 검정할 때 카이제곱 통계량과 유의확률을 활용할 수 있습니다.


728x90