Allen's 데이터 맛집
[1] 탐색적 데이터 분석 (EDA)와 통계적 가설 검정 본문
이번엔 데이터 분석 프로젝트의 두 번째 단계인 탐색적 데이터 분석(EDA)과 통계적 가설 검정에 대해 이야기해보겠습니다.
탐색적 데이터 분석 (EDA)
EDA는 데이터의 분포와 특성을 파악하는 과정입니다. 히스토그램, 박스플롯, KDE 플롯 등을 사용해 데이터를 시각화할 수 있습니다.
import seaborn as sns
import matplotlib.pyplot as plt
# 히스토그램
sns.histplot(df['temperature'])
plt.show()
# 박스플롯
sns.boxplot(x='pressure', data=df)
plt.show()
상관관계 분석을 통해 변수들 간의 관계도 파악할 수 있습니다.
# 상관관계 히트맵
corr = df.corr()
sns.heatmap(corr, annot=True)
plt.show()
통계적 가설 검정
통계적 가설 검정은 데이터에서 유의미한 차이를 발견하는 데 도움이 됩니다. 예를 들어, 두 그룹 간의 평균 차이를 검정할 때 t-검정을 사용할 수 있습니다.
from scipy import stats
# t-검정 예제
data1 = df[df['group'] == 'A']['value']
data2 = df[df['group'] == 'B']['value']
t_stat, p_value = stats.ttest_ind(data1, data2)
print(f"T-statistic: {t_stat}, P-value: {p_value}")
CLASS101링크:https://class101.net/classic/products/Wzhzd2eWzGnwVXwFjmug