250x250
반응형
관리 메뉴

Allen's 데이터 맛집

[1] 데이터 분석 및 모델 구현 본문

Mini Project/벤츠 차량 가격 예측

[1] 데이터 분석 및 모델 구현

Allen93 2025. 4. 19. 14:24

 

1. 데이터 분석

1.1 상관관계 분석

  • 각 변수와 가격 간의 관계를 분석하여 중요한 특징을 도출합니다.
  • 주요 인사이트:
    • 제조 연도(Year)는 차량 가격에 긍정적인 영향을 미침(새로운 차량일수록 높은 가격).
    • 주행 거리(Mileage)는 차량 가격에 부정적인 영향을 미침(많이 주행한 차량일수록 낮은 가격).

1.2 데이터 시각화

  • 가격과 주요 변수 간의 관계를 시각화하여 데이터를 직관적으로 이해.
  • 히스토그램: 가격 분포.
  • 박스플롯: 연료 타입별 가격 차이.

2. 머신러닝 모델 구현

2.1 사용된 알고리즘

  1. 선형 회귀(Linear Regression):
    • 가격과 변수 간의 선형 관계를 모델링.
  2. 랜덤 포레스트(Random Forest):
    • 비선형 관계와 변수 중요도를 파악하는 데 유용.
  3. XGBoost:
    • 강력한 부스팅 알고리즘으로, 고성능 예측 모델 구현.

2.2 모델 평가

  • 데이터셋을 훈련 데이터(70%)와 테스트 데이터(30%)로 분리.
  • 주요 평가 지표:
    • RMSE(평균 제곱근 오차): 예측 값과 실제 값 간의 차이를 측정.
    • (결정 계수): 모델이 데이터를 얼마나 잘 설명하는지 평가.

모델 성능 비교

모델RMSER²

선형 회귀 3,200 0.75
랜덤 포레스트 2,700 0.85
XGBoost 2,500 0.88

2.3 모델 최적화

  • 하이퍼파라미터 튜닝:
    • 랜덤 포레스트와 XGBoost의 최적 성능을 위해 Grid Search 및 Random Search 사용.
  • 교차 검증:
    • 데이터셋을 여러 폴드로 나누어 모델의 일반화 성능 평가.

https://github.com/siilver94/Benz-Vehicle-Price-Prediction/tree/main?tab=readme-ov-file

 

GitHub - siilver94/Benz-Vehicle-Price-Prediction

Contribute to siilver94/Benz-Vehicle-Price-Prediction development by creating an account on GitHub.

github.com

 

728x90