목록Statistics (3)
Allen's 데이터 맛집
1. "그냥 랜덤하게 뽑으면 되지 않나요?"데이터를 다르다 보면 이런 생각이 듭니다."표본추출은 그냥 무작위(random)로 뽑으면 되는 거 아닌가요?" 맞아요, 기본적으로 무작위성(randomness)은 중요합니다.하지만 '어떻게' 무작위로 뽑느냐가 훨씬 중요하죠.아무리 많은 데이터를 모아도, 애초에 뽑는 과정이 치우쳐 있다면결과는 이미 편향되어 있습니다. 예를 들어 차량 고장 데이터를 분석한다고 해봅시다.최근 몇 달간의 데이터만 모았는데,그 시기가 우연히 여름철이라면?결국 기온이 높은 계절만의 특성이 반영된 표본이 될 수 있어요.이건 단순한 우연이 아니라 표본 설계의 실패예요.2. 표본추출의 핵심 원리 표본추출(sampling)은 전체(모집단) 중 일부를 뽑아 대표성 있는 정보를 얻는 과정입니다.그중..
1. 왜 이걸 먼저 이해해야 할까우리가 보는 데이터는 대부분 전체(모집단)가 아니라 일부(표본)예요. 설문 1,000명, 생산라인 하루치, A/B 실험의 2주치... 전부 표본이죠. 통계는 이 표본으로 보이지 않는 전체를 추정하려는 시도에요. 그래서 "표본이 얼마나 '대표'인지"를 끊임없이 따집니다. 2. 핵심 정의 한줄 모집단(population) : 우리가 알고 싶은 전체. 예) 현대 자동차 전량의 고장률.표본(Sample) : 실제로 관측한 일부. 예) 2025년 6~10월 수리 접수된 1,200건.모수(parameter) : 모집단의 진짜 값(정답). 예) 전체 고장률 p.통계량(statisic) : 표본으로 계산한 값(추정치). 예) 표본 고장률 p^.기억 포인트 : 우리는 모수를 모르기 때문..
- 데이터 사이언스의 언어, 그 시작점1. "오늘 비 올 확률이 70%래요""오늘 강수 확률은 70%입니다." 이 말을 듣고 어떤 사람은 우산을 챙기고,또 어떤 사람은 "30%면 안 올 수도 있겠네?" 하며 그냥 나가죠. 재미있는 건,비가 오느냐 안오느냐보다 사람마다 '확률'을 해석하는 방식이 다르다는 점이에요누군가는 조심성을 택하고,누군가는 낙관을 택하죠. 이게 바로 통계의 출발점이에요.불확실한 세상에서 어떻게 판달할 것인가. 통계학은 완벽한 정답을 알려주는 학문이 아니에요.대신 "틀릴 수도 있는 상황에서, 그래도 제일 합리적인 선택"을 돕는 학문이라 생각해요.2. 통계의 본질은 '의사결정의 언어'예요통계라고 하면 보통 '숫자 계산', '그래프', '평균' 을 떠올리죠.물론 이 말이 틀린건 아닌데요,하..
