Allen's 데이터 맛집
분류 모형 평가하기: 오분류표와 핵심 평가 지표들 본문
분류 모형의 성능을 평가하는 것은 머신러닝에서 중요한 단계입니다. 오분류표(Confusion Matrix)를 기반으로 한 평가 지표들은 모델이 얼마나 잘 작동하는지를 이해하는 데 필수적입니다.
오분류표(Confusion Matrix)란?
오분류표는 실제 클래스와 모델이 예측한 클래스의 관계를 표 형태로 나타낸 것입니다. 주로 이진 분류 문제에서 사용되며, 표는 다음과 같은 네 가지 요소로 구성됩니다.
- True Positive (TP): 실제 양성을 양성으로 올바르게 예측한 경우
- False Positive (FP): 실제 음성을 잘못하여 양성으로 예측한 경우
- True Negative (TN): 실제 음성을 음성으로 올바르게 예측한 경우
- False Negative (FN): 실제 양성을 잘못하여 음성으로 예측한 경우
핵심 평가 지표들
1. 정확도(Accuracy)
정의: 전체 샘플 중 올바르게 예측된 샘플의 비율입니다.
계산:
2. 정밀도(Precision)
정의: 양성으로 예측된 샘플 중 실제 양성인 샘플의 비율입니다.
계산: TP/(TP+FP)
3. 재현율(Recall) 또는 민감도(Sensitivity)
정의: 실제 양성 샘플 중 양성으로 올바르게 예측된 샘플의 비율입니다.
계산: TP/(TP+FN)
4. F1 점수(F1 Score)
정의: 정밀도와 재현율의 조화 평균입니다. 두 지표를 동시에 고려할 때 유용합니다.
계산: 2∗(Precision∗Recall)/(Precision+Recall)
5. 특이도(Specificity)
정의: 실제 음성 샘플 중 음성으로 올바르게 예측된 샘플의 비율입니다.
계산: TN/(TN+FP)
평가 지표의 선택
분류 모형의 목적과 데이터의 특성에 따라 적절한 평가 지표를 선택하는 것이 중요합니다. 예를 들어, 의료 진단 분류기에서는 재현율이 매우 중요할 수 있으며, 스팸 필터에서는 정밀도가 더 중요할 수 있습니다.