목록맛집 List (443)
Allen's 데이터 맛집
p-value는 통계를 처음 배우는 사람들이 가장 자주 헷갈리는 개념 중 하나예요.수식으로 배우면 외워지긴 하는데, 정작 언제 작고 언제 큰 게 중요한지 잘 안 와닿죠.그래서 이번엔 공식을 잠깐 내려두고, “감”으로 이해해볼게요.1️⃣ p-value는 ‘우연일 확률’이다 (단, 조건부로)p-value는 이렇게 묻는 값이에요.“내가 관찰한 결과가, 진짜로 아무 일도 일어나지 않았다고 가정했을 때 얼마나 희귀한가?”예를 들어 동전을 던졌는데 연속으로 8번 앞면이 나왔다면,“이게 우연일 확률”을 계산한 게 p-value죠.만약 그 확률이 0.003이라면, 우리는 이렇게 말할 수 있습니다.“이건 우연이라고 보기엔 너무 희귀하네.”즉, p-value가 작을수록 ‘우연이 아닐 가능성’이 커 보인다는 뜻이에요.(정확..
데이터 분석을 시작하면 대부분 이렇게 말하죠.“먼저 EDA를 합니다.”하지만 많은 초보 분석가들이 EDA를 ‘데이터를 구경하는 과정’쯤으로 생각합니다.사실 EDA는 그보다 훨씬 중요한 일입니다.탐색은 끝이 아니라 ‘문제 정의의 연장선’이에요.데이터를 들여다보며, 내가 세운 가설이 현실에 맞는지 계속 검증하고 조정하는 과정이죠.1️⃣ 문제 정의는 “생각”이고, EDA는 “증거”다문제 정의는 이렇게 시작합니다.“판매가 떨어지는 이유가 시즌 요인일까?”“고객 이탈이 늘어난 건 가격 때문일까?”하지만 이건 가설일 뿐이에요.EDA는 그 가설이 데이터와 실제로 맞닿아 있는지 확인합니다.즉, ‘문제를 세운다 → 데이터를 본다 → 다시 문제를 다듬는다’의 순환 구조.그래서 잘하는 분석가는 EDA 단계에서 문제 정의를 ..
처음 Pandas를 배울 때 가장 헷갈리는 부분이 groupby()죠.“도대체 이게 뭐 하는 함수지?”라는 생각이 들다가,한순간 ‘아, 집계의 흐름을 바꾸는 도구구나’ 하고 감이 옵니다.오늘은 그 감을 잡는 이야기를 해볼게요.1️⃣ groupby는 “요약을 위한 사고 전환”엑셀 피벗처럼 Pandas의 groupby도 데이터를 묶고 요약합니다.하지만 단순히 “그룹화”가 아니라, ‘요약 단위로 사고를 전환’하는 거예요.예를 들어 이런 데이터가 있다고 해봅시다.import pandas as pddf = pd.DataFrame({ 'team': ['A', 'A', 'B', 'B', 'B', 'C'], 'score': [10, 12, 20, 18, 15, 8]})“팀별 평균 점수”를 구하고 싶다면 이렇..
데이터베이스를 조금만 써봐도 금방 느낍니다.“NULL은 그냥 빈값이지, 뭐 어때?” 했다가 결과가 이상하게 나오는 그 순간.NULL은 단순한 ‘빈칸’이 아니라 “모름(unknown)”이에요.그리고 이 ‘모름’이, SQL의 논리를 흔들어놓습니다.1️⃣ NULL은 0도 아니고, 빈 문자열도 아니다0은 “값이 있음 (단, 그게 0)”''은 “문자열인데 내용이 없음”NULL은 “값이 아예 존재하지 않음”즉, “지금은 모르겠어” 상태예요.이걸 기억하지 않으면 비교나 계산이 전부 꼬입니다.2️⃣ 비교 연산이 통하지 않는다SELECT * FROM users WHERE age = NULL; -- 결과 없음 = 연산자는 “값이 같음”을 판단하지만,NULL은 “값이 없다”이기 때문에 비교 자체가 성립하지 않습니다.그래..
