Allen's 데이터 맛집
회귀 모형 평가 지표 해설: MAE부터 RMSLE까지 본문
회귀 분석은 예측 모델링의 핵심입니다. 이 과정에서 모델의 성능을 정확하게 평가하는 것은 중요한데, 이를 위해 다양한 평가 지표가 사용됩니다. 이 글에서는 MAE, MSE, RMSE, MSLE, RMSLE, MAPE 등의 회귀 모형 평가 지표들에 대해 알아보겠습니다.
MAE (Mean Absolute Error, 평균 절대 오차)
정의: 관측값과 예측값의 차이(절대값)의 평균입니다.
장점: 이해하기 쉽고 계산이 간단합니다.
단점: 이상치(outliers)에 덜 민감합니다.
적용: 일반적인 오차 측정에 적합하며, 이상치의 영향을 덜 받기 원할 때 사용됩니다.
MSE (Mean Squared Error, 평균 제곱 오차)
정의: 관측값과 예측값의 차이의 제곱의 평균입니다.
장점: 오차의 크기를 과장하여 이상치에 더 민감합니다.
단점: 단위가 원 데이터의 제곱이 되어 해석이 어렵습니다.
적용: 모델이 이상치에 어떻게 반응하는지 평가하고 싶을 때 유용합니다.
RMSE (Root Mean Squared Error, 평균 제곱근 오차)
정의: MSE의 제곱근입니다.
장점: MSE의 단점을 해결하여 오차의 단위를 원래의 단위로 복원합니다.
단점: 여전히 이상치에 민감합니다.
적용: 일반적으로 가장 널리 사용되며, 오차의 실제 평균값을 추정합니다.
MSLE (Mean Squared Logarithmic Error, 평균 제곱 로그 오차)
정의: 관측값과 예측값에 로그를 취한 뒤의 MSE입니다.
장점: 예측값과 관측값 사이의 상대적 차이를 측정하므로, 값의 스케일에 덜 민감합니다.
단점: 타겟 값이 음수일 수 없습니다.
적용: 예측 대상이 양수이며, 스케일에 민감하지 않을 때 유용합니다.
RMSLE (Root Mean Squared Logarithmic Error, 평균 제곱 로그 오차의 제곱근)
정의: MSLE의 제곱근입니다.
장점: MSLE와 같이 상대적 오차를 측정하며, 로그 변환으로 인해 이상치에 강합니다.
단점: 타겟 값이 음수일 수 없습니다.
적용: 과대 평가된 항목보다 과소 평가된 항목에 더 큰 패널티를 주고 싶을 때 적합합니다.
MAPE (Mean Absolute Percentage Error, 평균 절대 백분율 오차)
정의: 관측값에 대한 오차의 절대값의 백분율 평균입니다.
장점: 오차의 백분율로 제공되므로 결과 해석이 용이합니다.
단점: 관측값이 0에 가까울 때 오차가 무한대로 갈 수 있습니다.
적용: 결과값의 스케일이 일정하지 않거나, 오차율 자체가 중요할 때 사용됩니다.