Allen's 데이터 맛집
[1] 데이터 분석 및 모델 구현 본문
1. 데이터 분석 과정
1.1 상관관계 분석
- 각 변수와 판매 가격 간의 상관관계를 계산하여 중요한 요인을 파악.
- 예:
- OverallQual: 전반적인 품질이 가격에 강한 영향을 미침.
- YearBuilt: 최근 건축된 집일수록 높은 가격을 기록.
상관관계 시각화
- 히트맵을 통해 주요 변수 간 상관관계 표시.
- 판매 가격에 큰 영향을 미치는 변수에 주목.
1.2 변수 선택
- 고차원의 데이터를 다룰 때는 중요한 변수만 선택하여 분석.
- Feature Selection 기술:
- Lasso Regression 사용.
- Recursive Feature Elimination(RFE) 적용.
2. 머신러닝 모델 구현
2.1 사용 알고리즘
- 선형 회귀(Linear Regression):
- 가격과 요인 간의 선형 관계 모델링.
- 랜덤 포레스트(Random Forest):
- 비선형 관계를 효과적으로 처리하는 트리 기반 알고리즘.
- Gradient Boosting:
- 예측 성능을 극대화하는 부스팅 알고리즘.
2.2 모델 성능 평가
- 데이터셋을 훈련 데이터(70%)와 테스트 데이터(30%)로 분리.
- 주요 평가 지표:
- RMSE: 평균 제곱근 오차.
- R²: 설명력 지표.
모델 성능 비교
모델 RMSE R²
선형 회귀 | 25,000 | 0.78 |
랜덤 포레스트 | 18,000 | 0.88 |
Gradient Boosting | 15,000 | 0.92 |
https://github.com/siilver94/Predict-Sales-Price-For-House
GitHub - siilver94/Predict-Sales-Price-For-House
Contribute to siilver94/Predict-Sales-Price-For-House development by creating an account on GitHub.
github.com
728x90