Allen's 데이터 맛집
[1] 데이터 분석 및 모델 구현 본문
1. 데이터 분석
1.1 상관관계 분석
- 각 변수와 가격 간의 관계를 분석하여 중요한 특징을 도출합니다.
- 주요 인사이트:
- 제조 연도(Year)는 차량 가격에 긍정적인 영향을 미침(새로운 차량일수록 높은 가격).
- 주행 거리(Mileage)는 차량 가격에 부정적인 영향을 미침(많이 주행한 차량일수록 낮은 가격).
1.2 데이터 시각화
- 가격과 주요 변수 간의 관계를 시각화하여 데이터를 직관적으로 이해.
- 히스토그램: 가격 분포.
- 박스플롯: 연료 타입별 가격 차이.
2. 머신러닝 모델 구현
2.1 사용된 알고리즘
- 선형 회귀(Linear Regression):
- 가격과 변수 간의 선형 관계를 모델링.
- 랜덤 포레스트(Random Forest):
- 비선형 관계와 변수 중요도를 파악하는 데 유용.
- XGBoost:
- 강력한 부스팅 알고리즘으로, 고성능 예측 모델 구현.
2.2 모델 평가
- 데이터셋을 훈련 데이터(70%)와 테스트 데이터(30%)로 분리.
- 주요 평가 지표:
- RMSE(평균 제곱근 오차): 예측 값과 실제 값 간의 차이를 측정.
- R²(결정 계수): 모델이 데이터를 얼마나 잘 설명하는지 평가.
모델 성능 비교
모델RMSER²
선형 회귀 | 3,200 | 0.75 |
랜덤 포레스트 | 2,700 | 0.85 |
XGBoost | 2,500 | 0.88 |
2.3 모델 최적화
- 하이퍼파라미터 튜닝:
- 랜덤 포레스트와 XGBoost의 최적 성능을 위해 Grid Search 및 Random Search 사용.
- 교차 검증:
- 데이터셋을 여러 폴드로 나누어 모델의 일반화 성능 평가.
https://github.com/siilver94/Benz-Vehicle-Price-Prediction/tree/main?tab=readme-ov-file
GitHub - siilver94/Benz-Vehicle-Price-Prediction
Contribute to siilver94/Benz-Vehicle-Price-Prediction development by creating an account on GitHub.
github.com
728x90