목록Data Analysis (84)
Allen's 데이터 맛집
p-value는 통계를 처음 배우는 사람들이 가장 자주 헷갈리는 개념 중 하나예요.수식으로 배우면 외워지긴 하는데, 정작 언제 작고 언제 큰 게 중요한지 잘 안 와닿죠.그래서 이번엔 공식을 잠깐 내려두고, “감”으로 이해해볼게요.1️⃣ p-value는 ‘우연일 확률’이다 (단, 조건부로)p-value는 이렇게 묻는 값이에요.“내가 관찰한 결과가, 진짜로 아무 일도 일어나지 않았다고 가정했을 때 얼마나 희귀한가?”예를 들어 동전을 던졌는데 연속으로 8번 앞면이 나왔다면,“이게 우연일 확률”을 계산한 게 p-value죠.만약 그 확률이 0.003이라면, 우리는 이렇게 말할 수 있습니다.“이건 우연이라고 보기엔 너무 희귀하네.”즉, p-value가 작을수록 ‘우연이 아닐 가능성’이 커 보인다는 뜻이에요.(정확..
데이터 분석을 시작하면 대부분 이렇게 말하죠.“먼저 EDA를 합니다.”하지만 많은 초보 분석가들이 EDA를 ‘데이터를 구경하는 과정’쯤으로 생각합니다.사실 EDA는 그보다 훨씬 중요한 일입니다.탐색은 끝이 아니라 ‘문제 정의의 연장선’이에요.데이터를 들여다보며, 내가 세운 가설이 현실에 맞는지 계속 검증하고 조정하는 과정이죠.1️⃣ 문제 정의는 “생각”이고, EDA는 “증거”다문제 정의는 이렇게 시작합니다.“판매가 떨어지는 이유가 시즌 요인일까?”“고객 이탈이 늘어난 건 가격 때문일까?”하지만 이건 가설일 뿐이에요.EDA는 그 가설이 데이터와 실제로 맞닿아 있는지 확인합니다.즉, ‘문제를 세운다 → 데이터를 본다 → 다시 문제를 다듬는다’의 순환 구조.그래서 잘하는 분석가는 EDA 단계에서 문제 정의를 ..
이번 포스팅에선 데이터 분석에서 중요한 시각화 기법 중 하나인 생키 다이어그램(Sankey Diagram)에 대해 알아보려고 합니다. 생키 다이어그램은 복잡한 흐름과 분포를 시각적으로 표현하는 데 매우 유용한 도구입니다.이미지 출처:https://public.tableau.com/app/profile/ken.flerlage/viz/Sankey_25/Sankey 1. 생키 다이어그램이란? 생키 다이어그램은 에너지, 자원, 비용, 데이터 흐름 등에서 각 요소 간의 흐름과 분포를 시각화하는 데 사용되는 그래프입니다. 이 다이어그램은 흐름의 시작과 끝을 보여주는 노드(Node)와, 노드 간의 연결을 나타내는 링크(Link)로 구성됩니다.노드(Node)는 데이터의 출발지와 도착지를 나타내며, 링크(Link)는 ..
쥬피터 노트북을 사용하여 그래프를 그릴 때 생각보다 흐릿하게, 뚜렷하지 않게 출력이 되지 않는 경우, 간단한 코드를 통해 이를 해결이 가능합니다. [적용 전] sns.countplot(data = df1, y = '메세지') 위와 같이 그래프와 그래프 내의 글자가 선명하지 않을 경우, 아래의 코드를 통해 선명하게 해결이 가능합니다. [적용 후]from IPython.display import set_matplotlib_formats # 그래프 서체를 선명하게 출력set_matplotlib_formats('retina')