Allen's 데이터 맛집
[머신러닝] 회귀 : 벤츠 차량 가격 예측 본문
Mercedes Used Car Listing
"How much my friend should sell his old Mercedes" 이번 포스팅에선 케글의 'Mercedes Used Car Listing'의 벤츠의 중고차 목록 데이터를 사용해서 중고 벤츠 차량이 얼마에 팔릴지를 분석하여 Price를 예측해 보는 프로젝트입니다
About Dataset
Data set contains information of price, transmission, mileage, fuel type, road tax, miles per gallon (mpg), and engine size
data description:
model Mercedez model.
year registraion year.
price price in Euros.
transmission type of gear box.
mileage distance used.
fuelType engine fuel.
tax road tax.
mpg miles per galoon.
engineSize size in litres.
It'd be cool to have some insights and vizualisations of the data. Also, am open to ideas on how to expand the data set.
캐글출처 : https://www.kaggle.com/datasets/mysarahmadbhat/mercedes-used-car-listing
- 예측 변수 price, test.csv에 대해 price 값을 예측하여 제출, 제출 데이터 칼럼은 price만 존재해야 함.
- 평가지표 : RMSE
데이터 불러오기/ 탐색
데이터와 필요한 라이브러리들을 불러옵니다. 모델링은 RandomForestRegressor와 LinearRegression을 사용하고 평가지표로는 r2_score, 그리고 RMSE로 평가를 하기 위해 MSE를 import 합니다.
데이터 전처리
범주형 변수들을 get_dummies 함수를 사용하여 뉴메릭 타입으로 바꿔줍니다.
그리고 X데이터와 제출할 X데이터를 다시 나눠줍니다.
모델 생성 및 학습
train_test_split 함수를 사용하여 데이터를 학습과 테스트 데이터로 나눕니다.
randomForestRegressor를 사용하여 r2 score와 mse를 구하고 거기에 0.5를 곱하여 rmse평가 지표를 구합니다.
가장 예측값이 좋았던 모델을 사용하여 submission 파일을 만들어 각 대입하면 아래처럼 id별로 예측 값을 구해볼 수 있습니다.