Allen's 데이터 맛집

회귀모형의 해석과 평가 - F통계량, p-value, 결정계수(R2) 본문

Data Analysis/통계&분석

회귀모형의 해석과 평가 - F통계량, p-value, 결정계수(R2)

Allen93 2024. 1. 12. 18:50
오늘은 회귀모형의 해석과 평가에 대해 알아보려고 합니다. F통계량, 유의확률(p-value), 회귀계수, 결정계수 등의 요소들을 함께 살펴봐요.

 

 




F통계량: 전체 모델의 유의성을 보여주는 지표

F통계량은 회귀모형 전체가 통계적으로 유의미한지를 나타내는 지표입니다. 이 값이 크면 회귀모형이 종속변수의 변동을 설명하는 데 유의미하다는 것을 의미합니다. 반대로 작으면 모델이 유의미하지 않을 가능성이 높아집니다.


유의확률(p-value): 각 독립변수의 유의성 확인

회귀모형에서 각 독립변수의 유의성은 유의확률을 통해 판단할 수 있습니다. 일반적으로 0.05보다 작으면 해당 독립변수는 통계적으로 유의미하다고 판단합니다. 작으면 작을수록 해당 변수가 모델에 중요한 역할을 한다고 해석할 수 있습니다.


회귀계수의 값과 유의확률: 변수의 영향력 파악

회귀계수는 각 독립변수가 종속변수에 미치는 영향을 나타냅니다. 양수이면 종속변수가 증가하는 경향을, 음수이면 감소하는 경향을 나타냅니다. 유의확률은 해당 회귀계수가 유의미한지를 확인합니다. 작은 p-value는 해당 변수가 모델에 기여하는 정도가 크다는 것을 의미합니다.


결정계수(R²): 모델의 설명력

결정계수는 모델이 종속변수의 변동을 얼마나 잘 설명하는지를 나타내는 지표입니다. 0과 1 사이의 값으로, 1에 가까울수록 모델이 데이터를 잘 설명한다는 것을 의미합니다. 하지만 과도하게 높은 결정계수는 과적합을 의미할 수 있으므로 주의가 필요합니다.


예시로 살펴보기

가령, 주택 가격을 예측하는 회귀모형에서 F통계량이 높고 유의확률이 낮다면, 모델 전체가 유의미하게 주택 가격을 설명한다고 해석할 수 있습니다. 특정 변수의 회귀계수가 양수이고 유의확률이 낮다면, 해당 변수는 주택 가격에 긍정적인 영향을 미친다고 볼 수 있습니다.


마무리

회귀모형을 해석하고 평가하는 것은 데이터 과학의 핵심 중 하나입니다. F통계량, 유의확률, 회귀계수, 결정계수 등의 지표를 통해 데이터를 확인하는 것은 중요한 작업입니다.