Allen's 데이터 맛집

[2] 미세먼지 데이터 전처리 본문

Project/미세먼지 분석

[2] 미세먼지 데이터 전처리

Allen93 2023. 12. 9. 19:54

파일 준비하기


[data_day_2016.xlsx, data_day_2017.xlsx, data_day_2018.xlsx, data_day_2019.xlsx] 파일을 가져오고 이를 확인합니다.

 


각 파일에 기록되어 있는 내용
    - 측정일시, 측정소명, 이산화질소농도, 오존농도, 이산화탄소농도, 아황산가스, 미세먼지, 초미세먼지의 측정치

 

 

 

 

결측치 처리

 

2016년부터 2019년까지 파일을 합친 다음 데이터 분석을 위해 인덱스를 설정하고, 측정일시를 datetime형태로 변환합니다. 그리고 데이터 결측치 개수를 각각 확인합니다.

 

 

 

시각화(Heatmap)를 통하여 결측치를 좀 더 명확히 확인합니다.

 

 

연/월별 미세먼지 데이터의 평균을 새로운 데이터프레임에 넣고 저장합니다.

 

 

 

2017년 6월까지 데이터만 출력해 봅니다.

 

 

'결측치제거후''차이'라는 컬럼을 추가합니다.

'결측치제거후'는 데이터의 평균, '차이''미세먼지''결측치제거후'의 차이입니다.

이는 결측치를 처리하였을 때 데이터의 차이를 확인할 수 있습니다.

 

 

결측치 대체 - 평균값

df_dust의 '측정일시''미세먼지'의 평균을 구하고 이를 fine_dust로 지정합니다.

해당 df_dust의 미세먼지의 결측치를 fine_dust의 값으로 채웁니다.

 

 

 

df_dust의 결측치를 확인해 본 결과, 미세먼지의 결측치들이 제거되었음을 확인할 수 있습니다.

 

 

 

'결측치대체' 컬럼은 df_dust에서 년/월별 미세먼지 데이터의 평균을 사용하고,

'차이2' 컬럼은 '미세먼지' - '결측치대체' 를 사용합니다.

이를 데이터를 출력하여 확인해 보고 절댓값으로도 결측치 대체 전과 후의 차이를 확인해 봅니다.

 

 

 

오존농도와 초미세먼지 컬럼에 대해서도 같은 결측치 처리를 실행합니다.

전처리가 끝난 데이터를 'fine_dust02.csv' 파일로 저장하고 이를 확인해 봅니다.

728x90