목록Data Analysis (82)
Allen's 데이터 맛집

이번 포스팅에선 데이터 분석에서 중요한 시각화 기법 중 하나인 생키 다이어그램(Sankey Diagram)에 대해 알아보려고 합니다. 생키 다이어그램은 복잡한 흐름과 분포를 시각적으로 표현하는 데 매우 유용한 도구입니다.이미지 출처:https://public.tableau.com/app/profile/ken.flerlage/viz/Sankey_25/Sankey 1. 생키 다이어그램이란? 생키 다이어그램은 에너지, 자원, 비용, 데이터 흐름 등에서 각 요소 간의 흐름과 분포를 시각화하는 데 사용되는 그래프입니다. 이 다이어그램은 흐름의 시작과 끝을 보여주는 노드(Node)와, 노드 간의 연결을 나타내는 링크(Link)로 구성됩니다.노드(Node)는 데이터의 출발지와 도착지를 나타내며, 링크(Link)는 ..

쥬피터 노트북을 사용하여 그래프를 그릴 때 생각보다 흐릿하게, 뚜렷하지 않게 출력이 되지 않는 경우, 간단한 코드를 통해 이를 해결이 가능합니다. [적용 전] sns.countplot(data = df1, y = '메세지') 위와 같이 그래프와 그래프 내의 글자가 선명하지 않을 경우, 아래의 코드를 통해 선명하게 해결이 가능합니다. [적용 후]from IPython.display import set_matplotlib_formats # 그래프 서체를 선명하게 출력set_matplotlib_formats('retina')
데이터 분석에서 중요한 기법 중 하나인 선형보간(Linear Interpolation)에 대해 알아보겠습니다. 데이터가 저장되는 간격이 일정하지 않을 때, 정확한 비교와 분석을 위해 데이터를 동일한 시간 간격으로 변환하는 방법입니다. 선형보간의 필요성현업에서는 다양한 이유로 데이터가 일정한 간격으로 수집되지 않을 때가 많습니다. 센서 고장, 네트워크 문제, 수집 주기의 차이 등 여러 요인으로 인해 데이터 간 간격이 불규칙해질 수 있죠. 이러한 불규칙한 데이터를 분석하기 위해서는 데이터를 동일한 시간 간격으로 변환하는 작업이 필요합니다. 이때 사용하는 기법이 바로 선형보간입니다. 선형보간의 원리선형보간은 두 점 사이의 직선을 이용해 새로운 점을 예측하는 방법입니다. 이를 통해 주어진 데이터 포인트 사이의..

데이터 품질 전처리에 대해 알아보겠습니다. 데이터를 분석하기 전에 필수적으로 거쳐야 하는 단계인 데이터 전처리에 대해 자세히 살펴보겠습니다. 데이터 품질 전처리 목적실제 공정에서 발생하는 데이터는 의미 없는 값이나 누락 및 오타가 발생하여 품질이 좋지 않을 수 있습니다. 품질이 낮은 데이터를 분석에 이용하면 좋은 결과를 얻기 힘들죠. 따라서 데이터 품질 전처리는 데이터 분석에 있어서 필수적인 단계입니다. 데이터 품질지수 세부 설명1. 완전성 품질지수 완전성 품질지수는 결측 데이터의 개수를 확인하여 데이터의 완전성을 평가합니다. - 계산 방법: 완전성 품질지수 = 1 - (결측 데이터의 개수 / 전체 데이터의 개수) * 100 - 결측 데이터가 30% 이상인 경우, 해당 열(column)을 삭제하는 것이..