Allen's 데이터 맛집
분류 모형 성능 평가 : 카파 상관계수(Kappa Coefficient) 본문
분류 모델의 성능을 평가하는 데 있어 정확도만으로는 모델의 진정한 성능을 파악하기 어려운 경우가 종종 있습니다. 특히 불균형한 데이터셋에서는 더욱 그렇습니다. 이러한 상황에서 카파 상관계수(Kappa Coefficient)는 모델 평가의 유용한 지표로 활용됩니다. 이 글에서는 카파 상관계수의 개념, 계산 방법, 그리고 중요성에 대해 알아보겠습니다.
카파 상관계수(Kappa Coefficient)란?
카파 상관계수는 두 관측자의 평가 일치도를 측정하는 통계적 방법으로 시작되었으나, 분류 모델에서 예측 정확도가 무작위 추측보다 얼마나 더 나은지를 평가하는 데에도 사용됩니다. -1부터 +1까지의 범위를 가지며, 값이 클수록 모델의 성능이 더 좋음을 의미합니다.
카파 상관계수의 계산
카파 상관계수는 다음 공식으로 계산됩니다:
여기서, Po 는 관측된 일치도(실제 데이터에서 관측된 정확도), Pe는 우연에 의한 일치도(무작위 추측에 의해 예상되는 정확도)입니다.
카파 상관계수의 중요성
- 무작위 추측 대비 성능 평가: 카파 상관계수는 단순한 정확도보다 더 신뢰할 수 있는 성능 지표로, 무작위 추측 수준 이상의 정보를 제공합니다.
- 불균형 데이터셋에서의 유용성: 불균형한 클래스 분포를 가진 데이터셋에서 모델의 성능을 보다 공정하게 평가할 수 있습니다.
- 평가 일치도 측정: 다중 분류 문제에서도 적용할 수 있으며, 두 평가자 또는 관측자 간의 일치도를 측정하는 데에도 활용됩니다.
카파 상관계수 해석
- 0 이하: 일치도가 우연보다 못함
- 0.01 ~ 0.20: 약한 일치
- 0.21 ~ 0.40: 공정한 일치
- 0.41 ~ 0.60: 보통 일치
- 0.61 ~ 0.80: 상당한 일치
- 0.81 ~ 0.99: 거의 완벽한 일치
- 1: 완벽한 일치
카파 상관계수는 분류 모델의 성능을 평가하고, 특히 불균형 데이터셋에 적합한 모델을 개발할 때 중요한 지표로 활용될 수 있습니다.