Allen's 데이터 맛집
데이터 분할기법 부스트랩(Boostrap) 본문
오늘은 작은 데이터에서 빛을 발하는 부트스트랩(Bootstrap)에 대해 이야기하려고 해요. 작은 데이터셋에서도 통계적인 힘을 끌어올릴 수 있는 부트스트랩이란 무엇일까요?
부트스트랩이란?
부트스트랩은 통계학의 마법 같은 기술 중 하나입니다. 작은 샘플 데이터로부터 모집단의 특성을 추정하거나 가설을 검정하는 데에 사용됩니다.
작동 원리
1.샘플링
부트스트랩은 샘플 데이터에서 중복을 허용하며 무작위로 복원 추출합니다. 즉, 데이터에서 임의로 관측치를 선택하고, 다시 원래 데이터로 돌려놓고, 다음 번에 또 선택하는 식으로 샘플을 만듭니다.
2.추정
이렇게 만들어진 부트스트랩 샘플을 기반으로 우리가 원하는 통계량(평균, 중앙값 등)을 계산해봅니다. 여러 번 반복해서 샘플을 만들면, 우리는 통계량의 분포를 얻을 수 있어요.
3.결과:
이 분포를 통해 우리는 신뢰구간, 표준오차 등을 계산할 수 있습니다. 작은 데이터셋에서도 부트스트랩은 우리에게 통계적인 데이터를 얻을 수 있습니다.
실제 예시
카페에서 새로 출시된 음료의 일일 판매량을 알고 싶다고 가정해봅시다.
1.작은 샘플 수집:
우리는 카페에서 일주일 동안 매일 10잔의 판매량을 조사합니다.
2.부트스트랩:
이 작은 샘플에서 부트스트랩을 사용하여 여러 번의 재표본화를 수행합니다. 각각의 샘플에서 일일 판매량의 평균을 계산
합니다.
3.신뢰구간:
이렇게 얻은 평균들을 통해 95% 신뢰구간을 구하면, 우리는 판매량에 대한 통계적인 확신을 얻을 수 있습니다.
마무리
작은 데이터셋에서도 통계적인 추정이 가능하게 만들어주는 부트스트랩은 데이터 분석가에게 꼭 알아두어야 할 강력한 도구입니다.