관리 메뉴

Allen's 데이터 맛집

[1] 탐색적 데이터 분석 (EDA)와 통계적 가설 검정 본문

Project/스마트팩토리 반도체 제조 공정 분석

[1] 탐색적 데이터 분석 (EDA)와 통계적 가설 검정

Allen93 2024. 9. 30. 15:09
이번엔 데이터 분석 프로젝트의 두 번째 단계인 탐색적 데이터 분석(EDA)과 통계적 가설 검정에 대해 이야기해보겠습니다.

 


 

탐색적 데이터 분석 (EDA)

 

EDA는 데이터의 분포와 특성을 파악하는 과정입니다. 히스토그램, 박스플롯, KDE 플롯 등을 사용해 데이터를 시각화할 수 있습니다.

import seaborn as sns
import matplotlib.pyplot as plt

# 히스토그램
sns.histplot(df['temperature'])
plt.show()

# 박스플롯
sns.boxplot(x='pressure', data=df)
plt.show()

 

상관관계 분석을 통해 변수들 간의 관계도 파악할 수 있습니다.

# 상관관계 히트맵
corr = df.corr()
sns.heatmap(corr, annot=True)
plt.show()

 

통계적 가설 검정

통계적 가설 검정은 데이터에서 유의미한 차이를 발견하는 데 도움이 됩니다. 예를 들어, 두 그룹 간의 평균 차이를 검정할 때 t-검정을 사용할 수 있습니다.

 

from scipy import stats

# t-검정 예제
data1 = df[df['group'] == 'A']['value']
data2 = df[df['group'] == 'B']['value']
t_stat, p_value = stats.ttest_ind(data1, data2)
print(f"T-statistic: {t_stat}, P-value: {p_value}")

 

 

CLASS101링크:https://class101.net/classic/products/Wzhzd2eWzGnwVXwFjmug