목록통계 (65)
Allen's 데이터 맛집
이번 포스팅에서는 여러 알고리즘을 비교하고 결과를 해석하는 과정을 다루겠습니다. 여러 알고리즘 비교 여러 알고리즘의 성능을 비교하여 최적의 모델을 선택했습니다. 교차 검증과 ROC 곡선을 통해 모델의 성능을 평가했습니다.from sklearn.model_selection import cross_val_score# 교차 검증cv_scores = cross_val_score(rf_model, X, y, cv=5)print(f"교차 검증 점수: {cv_scores}")# ROC 곡선from sklearn.metrics import roc_curve, aucfpr, tpr, _ = roc_curve(y_test, rf_predictions)roc_auc = auc(fpr, tpr)print(f"ROC AUC: ..
이번 포스팅에서는 데이터 분석 프로젝트의 모델링과 예측 단계에 대해 다뤄보겠습니다. 데이터를 통해 예측 모델을 만들어보는 과정입니다.모델링모델링은 데이터를 통해 예측 모델을 만드는 과정입니다. 여기서는 선형 회귀, 의사결정나무, 랜덤 포레스트 등의 모델을 사용했습니다.from sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import mean_squared_error# 데이터 분할X = df[['temperature', 'pressure']]y = df['defect_rate']X_train, X_test, y_train, y_test = tr..
이번엔 데이터 분석 프로젝트의 두 번째 단계인 탐색적 데이터 분석(EDA)과 통계적 가설 검정에 대해 이야기해보겠습니다. 탐색적 데이터 분석 (EDA) EDA는 데이터의 분포와 특성을 파악하는 과정입니다. 히스토그램, 박스플롯, KDE 플롯 등을 사용해 데이터를 시각화할 수 있습니다.import seaborn as snsimport matplotlib.pyplot as plt# 히스토그램sns.histplot(df['temperature'])plt.show()# 박스플롯sns.boxplot(x='pressure', data=df)plt.show() 상관관계 분석을 통해 변수들 간의 관계도 파악할 수 있습니다.# 상관관계 히트맵corr = df.corr()sns.heatmap(corr, annot=Tru..
범죄 데이터 분석 프로젝트 소개이번에는 2016년 범죄자 범행시 전과 및 재범 여부에 관한 CSV 파일을 사용하여 다양한 분석을 진행할 예정입니다. 이 프로젝트를 통해 범죄자의 전과 여부와 재범률 간의 상관관계 등을 분석하고, 이를 통해 얻을 수 있는 유의미한 인사이트를 도출할 것입니다. 프로젝트 목표이 프로젝트의 목표는 공공데이터 포털 사이트에서 제공하는 국가 중점 데이터를 분석하여 의미 있는 통계 정보를 도출하는 것입니다. 이를 통해, 데이터로부터 유의미한 정보를 추출하고, 이를 바탕으로 데이터 분석의 기본 개념과 기술을 학습합니다. 프로젝트 구조데이터 다운로드: 공공데이터 포털 사이트에서 2016년 범죄자 범행시 전과 및 재범 여부에 관한 CSV 파일을 다운로드합니다.데이터 읽기: 다운로드한 CS..