250x250
반응형
관리 메뉴

Allen's 데이터 맛집

[1] 데이터 분석 및 모델 구현 본문

Project/집 값 예측을 위한 부동산 분석

[1] 데이터 분석 및 모델 구현

Allen93 2025. 4. 7. 10:26

1. 데이터 분석 과정

1.1 상관관계 분석

  • 각 변수와 판매 가격 간의 상관관계를 계산하여 중요한 요인을 파악.
  • 예:
    • OverallQual: 전반적인 품질이 가격에 강한 영향을 미침.
    • YearBuilt: 최근 건축된 집일수록 높은 가격을 기록.

상관관계 시각화

  • 히트맵을 통해 주요 변수 간 상관관계 표시.
  • 판매 가격에 큰 영향을 미치는 변수에 주목.

1.2 변수 선택

  • 고차원의 데이터를 다룰 때는 중요한 변수만 선택하여 분석.
  • Feature Selection 기술:
    • Lasso Regression 사용.
    • Recursive Feature Elimination(RFE) 적용.

2. 머신러닝 모델 구현

2.1 사용 알고리즘

  1. 선형 회귀(Linear Regression):
    • 가격과 요인 간의 선형 관계 모델링.
  2. 랜덤 포레스트(Random Forest):
    • 비선형 관계를 효과적으로 처리하는 트리 기반 알고리즘.
  3. Gradient Boosting:
    • 예측 성능을 극대화하는 부스팅 알고리즘.

2.2 모델 성능 평가

  • 데이터셋을 훈련 데이터(70%)테스트 데이터(30%)로 분리.
  • 주요 평가 지표:
    • RMSE: 평균 제곱근 오차.
    • : 설명력 지표.

모델 성능 비교

모델                                                                                                     RMSE                                         R²

선형 회귀 25,000 0.78
랜덤 포레스트 18,000 0.88
Gradient Boosting 15,000 0.92

 

 

https://github.com/siilver94/Predict-Sales-Price-For-House

 

GitHub - siilver94/Predict-Sales-Price-For-House

Contribute to siilver94/Predict-Sales-Price-For-House development by creating an account on GitHub.

github.com

 

728x90