목록Machine Learning (47)
Allen's 데이터 맛집

머신러닝 모델을 개발할 때 모델의 성능을 평가하고 비교하는 것은 필수적입니다. 향상도 차트(Lift Chart)는 분류 모델의 예측 성능을 시각적으로 평가하는 유용한 도구입니다. 이 글에서는 향상도 차트의 개념, 작성 방법, 그리고 실제 비즈니스 응용 사례를 통해 이 차트가 어떻게 활용될 수 있는지 살펴보겠습니다. 향상도 차트(Lift Chart)란? 향상도 차트는 모델의 예측 결과를 바탕으로 대상을 순위화하고, 이를 실제 결과와 비교하여 모델의 성능을 평가하는 차트입니다. 특히, 모델이 무작위 추측(random guessing)에 비해 얼마나 더 나은 성능을 보이는지, 즉 '향상도(Lift)'를 시각적으로 나타냅니다. 향상도 차트 작성 방법 1. 데이터 순위화: 모델에 의해 예측된 확률 또는 점수에 따..

머신러닝 분야에서 분류 모형의 성능을 평가하는 방법은 다양하지만, ROC Curve는 특히 이진 분류 문제에서 모델의 진단 능력을 평가하는 데 중요한 도구 중 하나입니다. 이 글에서는 ROC Curve의 개념, 중요성, 그리고 해석 방법에 대해 자세히 알아보겠습니다. ROC Curve란? ROC(Receiver Operating Characteristic) Curve는 실제 양성 클래스와 음성 클래스를 얼마나 잘 구분하는지를 보여주는 그래프입니다. 이는 다양한 임계값에서 모델의 성능을 시각화함으로써, 분류기의 성능을 직관적으로 이해할 수 있게 해줍니다. ROC Curve의 구성 요소 ROC Curve를 이해하기 위해서는 먼저 민감도(Sensitivity, 재현율)와 특이도(Specificity)의 개념을..

분류 모형의 성능을 평가하는 것은 머신러닝에서 중요한 단계입니다. 오분류표(Confusion Matrix)를 기반으로 한 평가 지표들은 모델이 얼마나 잘 작동하는지를 이해하는 데 필수적입니다. 오분류표(Confusion Matrix)란? 오분류표는 실제 클래스와 모델이 예측한 클래스의 관계를 표 형태로 나타낸 것입니다. 주로 이진 분류 문제에서 사용되며, 표는 다음과 같은 네 가지 요소로 구성됩니다. - True Positive (TP): 실제 양성을 양성으로 올바르게 예측한 경우 - False Positive (FP): 실제 음성을 잘못하여 양성으로 예측한 경우 - True Negative (TN): 실제 음성을 음성으로 올바르게 예측한 경우 - False Negative (FN): 실제 양성을 잘못하..

데이터 분석에서 중요한 역할을 하는 연관분석(Association Analysis)에 대해 알아보겠습니다. 연관분석은 상품 간의 관계를 발견하여 패턴을 파악하는 데 사용되며, 특히 마케팅 및 판매 전략을 수립하는 데 유용한 도구입니다. 이미지출처:https://blog.naver.com/gkenq/10188110816 연관분석의 개념 연관분석은 대량의 데이터에서 상품이나 사건들 간의 연관성을 파악하는 분석 기법입니다. 특히 '만약 A라는 상품을 구매한 고객은 B도 구매할 가능성이 높다'와 같은 규칙을 발견하는 데 사용됩니다. 연관분석의 종류 연관분석에는 주로 아래와 같은 두 가지 알고리즘이 사용됩니다. 1. Apriori 알고리즘: 가장 일반적으로 사용되는 연관분석 알고리즘으로, 빈발 집합을 찾아내어 연..