Allen's 데이터 맛집

커널 밀도 추정: 확률 분포의 비모수적 추정 방법 본문

Data Analysis/통계&분석

커널 밀도 추정: 확률 분포의 비모수적 추정 방법

Allen93 2024. 3. 7. 01:33
커널 밀도 추정은 데이터의 분포를 추정하는 데 사용되는 비모수적인 방법 중 하나입니다. 주어진 데이터로부터 확률 밀도 함수를 추정하여 데이터의 분포를 파악하는 데 사용됩니다.

이미지출처:https://en.wikipedia.org/wiki/Kernel_density_estimation



과정.


커널 함수 선택: 추정하려는 확률 밀도 함수의 형태를 결정하기 위해 커널 함수를 선택합니다. 대표적인 커널 함수로는 가우시안 커널이 많이 사용됩니다.


대역폭 설정: 추정에 사용될 대역폭을 설정합니다. 대역폭은 커널 함수의 너비를 결정하는 파라미터로, 데이터의 분포를 얼마나 부드럽게 추정할지를 조절합니다.


밀도 추정: 각 데이터 포인트를 중심으로 커널 함수를 적용하여 확률 밀도를 추정합니다. 모든 데이터 포인트에 대한 커널 함수의 합으로 확률 밀도 함수를 근사합니다.

 


활용 사례.


확률 밀도 추정: 주어진 데이터의 확률 분포를 추정하여 이를 통해 새로운 데이터의 확률을 예측하는 데 사용됩니다.
이상치 탐지: 데이터의 이상치를 탐지하기 위해 데이터의 분포를 추정하여 이상치로 판단하는 데 사용됩니다.


장단점.


- 장점: 비모수적인 방법으로 모수적인 방법보다 더욱 유연하게 데이터의 분포를 추정할 수 있습니다. 또한, 데이터의 분포가 복잡한 경우에도 잘 동작합니다.


- 단점: 대역폭 설정에 따라 추정 결과가 크게 영향을 받을 수 있으며, 대역폭을 결정하는 것이 어려울 수 있습니다.

 


예시와 설명.


가우시안 커널: 가우시안 커널은 가장 널리 사용되는 커널 함수 중 하나로, 데이터 포인트를 중심으로 좌우 대칭인 종 모양의 커널을 사용합니다.
대역폭 설정: 대역폭은 너무 작으면 과적합되고 너무 크면 과소적합될 수 있으므로 적절한 값을 설정해야 합니다.

 


추가적인 내용.


다변량 커널 밀도 추정: 다변량 데이터에 대한 커널 밀도 추정 방법에 대해 설명합니다.
크로스 밸리데이션: 대역폭 설정을 위한 최적의 대역폭을 결정하기 위해 크로스 밸리데이션 기법을 사용하는 방법에 대해 다룹니다.