목록Data Analysis (82)
Allen's 데이터 맛집
이번에는 작은 표본 크기를 다루는 통계적 방법 중 하나인 피셔의 정확 검정에 대해 알아보겠습니다. 피셔의 정확 검정은 표본 크기가 작거나 가정이 만족되지 않는 경우에 사용되며, 비모수적인 방법으로 데이터를 분석합니다. 피셔의 정확 검정의 개념 피셔의 정확 검정은 범주형 데이터에 대한 가설 검정을 수행하는 통계적 방법입니다. 주어진 데이터로부터 관찰된 빈도와 기대 빈도를 비교하여 가설을 검정합니다. 주로 작은 표본 크기나 가정이 만족되지 않는 경우에 사용됩니다. 피셔의 정확 검정의 단계 1. 가설 설정: 귀무가설과 대립가설을 설정합니다. 귀무가설은 일반적으로 두 그룹 간의 차이가 없다는 것을 가정합니다. 2. 검정 통계량 계산: 주어진 데이터로부터 관찰된 빈도와 기대 빈도를 비교하여 검정 통계량을 계산합니..
이동평균법은 시계열 데이터에서 사용되는 통계적 기법 중 하나로, 데이터의 변동을 줄이고 추세를 부드럽게 만들기 위해 사용됩니다. 이 기법은 데이터 포인트들의 평균을 계산하는 것으로, 시간에 따라 이동하는 창을 사용하여 계산됩니다. 이동평균은 데이터 포인트의 변동을 줄이고 추세를 파악하는 데 유용합니다. 장점: 1. 추세 파악: 데이터의 장기적인 추세를 파악하는 데 유용합니다. 2. 데이터 스무딩: 데이터의 불규칙한 변동을 줄여서 시계열 데이터의 패턴을 부드럽게 만들어줍니다. 3. 간단하고 직관적: 계산 방법이 간단하고 이해하기 쉬우며, 빠르게 적용할 수 있습니다. 단점: 1. 지연 현상: 이동평균은 시간에 따라 데이터를 평활화하기 때문에 예측값이 입력 데이터에 비해 시간적으로 지연될 수 있습니다. 2. ..
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)은 밀도 기반의 클러스터링 알고리즘으로, 데이터 포인트의 밀도에 따라 클러스터를 형성합니다. 이 알고리즘은 데이터의 밀도가 높은 지역을 클러스터로 간주하고, 데이터 포인트들 간의 거리를 기반으로 클러스터를 식별합니다. DBSCAN은 노이즈를 자동으로 처리할 수 있는 장점이 있어 실제로 많이 사용되는 알고리즘 중 하나입니다. 이미지출처:https://medium.com/@jayaramganesh238/dbscan-clustering-dea27873ed30 장점 1. 유연성: 클러스터의 모양에 대한 가정이 없어 다양한 형태의 클러스터를 식별할 수 있습니다. 2. 이상치 탐지: 노이즈 포인트..
Z-score는 주어진 데이터 포인트가 해당 데이터 집합에서 어떤 위치에 있는지를 나타내는 통계적인 측정 지표입니다. 이는 평균으로부터의 표준 편차의 수치로 표현됩니다. 장점 1. 표준화: 데이터를 평균과 표준 편차를 기반으로 표준화하여 서로 다른 스케일의 데이터를 비교할 수 있습니다. 2. 이상치 탐지: 표준화된 데이터에서 임계값을 설정하여 이상치를 식별할 수 있습니다. 단점 1. 정규 분포 가정: Z-score는 데이터가 정규 분포를 따른다고 가정합니다. 만약 데이터가 정규 분포를 따르지 않는 경우 결과가 왜곡될 수 있습니다. 2. 이상치 영향: 이상치가 있는 경우 평균과 표준 편차가 왜곡될 수 있으며, 이에 따라 Z-score도 왜곡될 수 있습니다. 사용 시기 1. 이상치 탐지: 데이터에서 이상치를..