Allen's 데이터 맛집

혼동행렬(Confusion Matrix)이란? 본문

Data Analysis/통계&분석

혼동행렬(Confusion Matrix)이란?

Allen93 2024. 5. 2. 22:06
데이터 과학과 기계 학습에서 모델의 성능을 평가하는 데 있어 혼동행렬(Confusion Matrix)은 필수적인 도구입니다.

혼동행렬

이미지출처:https://namu.wiki/w/%ED%98%BC%EB%8F%99%ED%96%89%EB%A0%AC

 


 

혼동행렬이란?


혼동행렬은 분류 문제에서 모델의 성능을 시각적으로 표현하는 표입니다. 이 행렬은 실제 클래스와 예측 클래스를 축으로 하여, 각 클래스에 속하는 예측 결과를 요약하여 보여줍니다. 주로 이진 분류 문제에서 사용되지만, 다중 클래스 분류 문제에서도 확장 사용될 수 있습니다.



혼동행렬의 구성 요소


- True Positive (TP): 실제 양성 클래스를 정확히 양성으로 예측한 경우의 수입니다.
- True Negative (TN): 실제 음성 클래스를 정확히 음성으로 예측한 경우의 수입니다.
- False Positive (FP): 실제로는 음성인데 잘못해서 양성으로 예측한 경우의 수입니다. (1종 오류)
- False Negative (FN): 실제로는 양성인데 잘못해서 음성으로 예측한 경우의 수입니다. (2종 오류)

 


혼동행렬에서 파생되는 주요 성능 지표


1. 정확도(Accuracy): 전체 예측 중 정확하게 예측된 경우의 비율입니다.
Accuracy=  TP+TN / TP+TN+FP+FN

2. 정밀도(Precision): 양성으로 예측된 사례 중 실제로 양성인 사례의 비율입니다.
Precision =  TP / TP+FP
 
3. 재현율(Recall) 또는 감도(Sensitivity): 실제 양성인 사례 중에서 양성으로 올바르게 예측된 사례의 비율입니다.
Recall= TP / TP+FN

4. F1 점수(F1 Score): 정밀도와 재현율의 조화 평균입니다.
F1 Score = 2 × (Precision×Recall) / (Precision+Recall)



혼동행렬의 활용


- 모델 평가: 혼동행렬은 다양한 성능 지표를 제공함으로써, 모델의 강점과 약점을 명확히 드러냅니다.
- 의사결정 지원: 특정 비용이나 위험을 고려한 최적의 임계값 결정에 도움을 줍니다.
클래스 불균형 문제: 불균형한 데이터 세트에서 모델의 성능을 정확히 이해하는 데 중요합니다.

 

 


혼동행렬은 분류 모델의 성능을 평가하고, 진단하는 데 중요한 도구입니다. 모델이 데이터를 얼마나 잘 이해하고 있는지, 어떤 종류의 오류가 자주 발생하는지 파악할 수 있습니다. 이러한 이해를 바탕으로 모델을 조정하고 개선하여, 더욱 정확하고 신뢰할 수 있는 예측 모델을 개발할 수 있습니다.

728x90