목록회귀분석 (3)
Allen's 데이터 맛집

다중 선형 회귀 분석은 변수 간의 관계를 모델링하고 예측하는 데 널리 사용되는 기법입니다. 이 글에서는 다중 선형 회귀의 기본 원리, 모델 구축 방법, 그리고 실생활 예시를 알아보겠습니다. 다중 선형 회귀란? 다중 선형 회귀(Multiple Linear Regression)는 한 개 이상의 독립 변수(X)와 종속 변수(Y) 간의 선형 관계를 모델링하는 통계 기법입니다. 단순 선형 회귀가 하나의 독립 변수를 다루는 데 비해, 다중 선형 회귀는 여러 개의 독립 변수를 포함하여 보다 복잡한 데이터 세트와 현실 세계의 문제를 해결할 수 있습니다. 모델의 수학적 표현 다중 선형 회귀 모델은 다음과 같이 표현됩니다: Y=β0 + β1X1 + β2X2 +...+βnXn + ϵ 여기서, Y는 종속 변수, Xi 는 독립..
회귀 분석은 예측 모델링의 핵심입니다. 이 과정에서 모델의 성능을 정확하게 평가하는 것은 중요한데, 이를 위해 다양한 평가 지표가 사용됩니다. 이 글에서는 MAE, MSE, RMSE, MSLE, RMSLE, MAPE 등의 회귀 모형 평가 지표들에 대해 알아보겠습니다. MAE (Mean Absolute Error, 평균 절대 오차) 정의: 관측값과 예측값의 차이(절대값)의 평균입니다. 장점: 이해하기 쉽고 계산이 간단합니다. 단점: 이상치(outliers)에 덜 민감합니다. 적용: 일반적인 오차 측정에 적합하며, 이상치의 영향을 덜 받기 원할 때 사용됩니다. MSE (Mean Squared Error, 평균 제곱 오차) 정의: 관측값과 예측값의 차이의 제곱의 평균입니다. 장점: 오차의 크기를 과장하여 이상..
오늘은 회귀분석에서 어떻게 적절한 설명 변수를 선택할 수 있는지 알아보려고 합니다. 모든 가능한 조합, 후진제거법, 전진선택법, 단계별 선택법, 이 네 가지 방법을 통해 데이터의 선택 방법을 알아보겠습니다. 1. 모든 가능한 조합: 이 방법은 데이터의 모든 변수 조합을 고려하여 회귀모델을 만드는 방식입니다. 하지만 변수가 많을수록 가능한 조합은 기하급수적으로 증가하므로 계산 비용이 높아집니다. 또한, 과적합의 문제가 발생할 수 있습니다. 2. 후진제거법: 후진제거법은 모든 변수를 포함한 전체 모델에서 시작하여 가장 덜 유의미한 변수를 하나씩 제거하는 방법입니다. 제거 후에도 모델의 성능이 충분하지 않다면, 더 이상 유의미한 변수가 없을 때까지 반복합니다. 3. 전진선택법: 전진선택법은 아무 변수도 포함하..