250x250
반응형
관리 메뉴

Allen's 데이터 맛집

[2] 결과 분석 및 최적화 본문

Project/집 값 예측을 위한 부동산 분석

[2] 결과 분석 및 최적화

Allen93 2025. 4. 10. 10:28

 

1. 결과 분석

1.1 주요 변수의 영향

  • 판매 가격에 가장 큰 영향을 미친 변수:
    1. OverallQual: 집의 전반적인 품질.
    2. GrLivArea: 생활 공간 면적.
    3. Neighborhood: 위치 및 지역 환경.

그래프 시각화

  • 변수별 가격 분포를 그래프로 표현:
    • 품질 등급이 높을수록 가격 상승.
    • 위치에 따라 큰 가격 차이 존재.

1.2 모델 성능 비교

  • Gradient Boosting 모델이 다른 모델에 비해 가장 낮은 RMSE와 높은 R²를 기록.
  • 랜덤 포레스트는 비슷한 성능을 보였으나, 실행 시간이 더 길어 실무에 적합한 최적 모델은 Gradient Boosting으로 선정.

2. 최적화 및 개선 방안

2.1 추가 변수 도입

  • 데이터셋에 더 많은 지역 환경 변수(학교, 교통, 상업시설 등)를 추가.
  • 외부 데이터를 연계하여 예측의 현실성을 높임.

2.2 하이퍼파라미터 튜닝

  • Gradient Boosting의 성능을 높이기 위해 하이퍼파라미터 최적화:
    • Grid Search, Random Search 사용.

3. 결론

3.1 성과

  • 본 프로젝트를 통해 판매 가격을 예측할 수 있는 모델을 성공적으로 구현하였으며, Gradient Boosting 모델이 가장 뛰어난 성능을 보임.
  • 주요 요인을 분석함으로써 부동산 시장에서 데이터 기반 의사결정을 지원.

3.2 향후 계획

  • 실시간 데이터를 활용한 동적 예측 시스템 구현.
  • 지역별 세부 모델링으로 정확도를 높이는 방향으로 확장.

리뷰

이 프로젝트를 통해 기본적인 머신러닝 지식을 활용하여 주택 가격을 예측하는 경험을 쌓을 수 있었습니다. 특히 다양한 피처 엔지니어링과 회귀 기법을 적용하는 과정에서 실전적인 데이터 분석 능력을 향상시킬 수 있었습니다. Ames Housing dataset은 현실적인 데이터에 대한 이해를 높일 수 있는 좋은 자료였다고 생각하며, 이를 통해 데이터 사이언스 학습에 많은 도움이 되었습니다.

이 프로젝트를 통해 랜덤 포레스트와 그라디언트 부스팅과 같은 고급 기법을 적용하고 효과적인 피처 엔지니어링을 통해 성능을 향상시킬 수 있었습니다. 계속해서 다양한 데이터셋과 기술을 사용하며 실력을 향상시킬 계획입니다.

 

 

https://github.com/siilver94/Predict-Sales-Price-For-House

 

GitHub - siilver94/Predict-Sales-Price-For-House

Contribute to siilver94/Predict-Sales-Price-For-House development by creating an account on GitHub.

github.com

 

728x90