목록Data Analysis/통계&분석 (64)
Allen's 데이터 맛집
이동평균법은 시계열 데이터에서 사용되는 통계적 기법 중 하나로, 데이터의 변동을 줄이고 추세를 부드럽게 만들기 위해 사용됩니다. 이 기법은 데이터 포인트들의 평균을 계산하는 것으로, 시간에 따라 이동하는 창을 사용하여 계산됩니다. 이동평균은 데이터 포인트의 변동을 줄이고 추세를 파악하는 데 유용합니다. 장점: 1. 추세 파악: 데이터의 장기적인 추세를 파악하는 데 유용합니다. 2. 데이터 스무딩: 데이터의 불규칙한 변동을 줄여서 시계열 데이터의 패턴을 부드럽게 만들어줍니다. 3. 간단하고 직관적: 계산 방법이 간단하고 이해하기 쉬우며, 빠르게 적용할 수 있습니다. 단점: 1. 지연 현상: 이동평균은 시간에 따라 데이터를 평활화하기 때문에 예측값이 입력 데이터에 비해 시간적으로 지연될 수 있습니다. 2. ..
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)은 밀도 기반의 클러스터링 알고리즘으로, 데이터 포인트의 밀도에 따라 클러스터를 형성합니다. 이 알고리즘은 데이터의 밀도가 높은 지역을 클러스터로 간주하고, 데이터 포인트들 간의 거리를 기반으로 클러스터를 식별합니다. DBSCAN은 노이즈를 자동으로 처리할 수 있는 장점이 있어 실제로 많이 사용되는 알고리즘 중 하나입니다. 이미지출처:https://medium.com/@jayaramganesh238/dbscan-clustering-dea27873ed30 장점 1. 유연성: 클러스터의 모양에 대한 가정이 없어 다양한 형태의 클러스터를 식별할 수 있습니다. 2. 이상치 탐지: 노이즈 포인트..
Z-score는 주어진 데이터 포인트가 해당 데이터 집합에서 어떤 위치에 있는지를 나타내는 통계적인 측정 지표입니다. 이는 평균으로부터의 표준 편차의 수치로 표현됩니다. 장점 1. 표준화: 데이터를 평균과 표준 편차를 기반으로 표준화하여 서로 다른 스케일의 데이터를 비교할 수 있습니다. 2. 이상치 탐지: 표준화된 데이터에서 임계값을 설정하여 이상치를 식별할 수 있습니다. 단점 1. 정규 분포 가정: Z-score는 데이터가 정규 분포를 따른다고 가정합니다. 만약 데이터가 정규 분포를 따르지 않는 경우 결과가 왜곡될 수 있습니다. 2. 이상치 영향: 이상치가 있는 경우 평균과 표준 편차가 왜곡될 수 있으며, 이에 따라 Z-score도 왜곡될 수 있습니다. 사용 시기 1. 이상치 탐지: 데이터에서 이상치를..
이번에는 머신 러닝과 딥러닝에서 널리 사용되는 미니배치 학습에 대해 알아보겠습니다. 미니배치 학습은 대용량의 데이터를 효율적으로 처리하면서 모델을 학습하는 방법 중 하나로, 데이터 분석과 머신 러닝 분야에서 매우 중요한 역할을 합니다. 미니배치 학습이란? 미니배치 학습은 전체 훈련 데이터를 작은 미니배치(mini-batch)로 나누어 각각의 미니배치에 대해 모델을 학습시키는 방법입니다. 이는 전체 데이터를 한 번에 처리하는 것보다 효율적이며, 메모리 사용량을 줄이고 계산 속도를 높일 수 있습니다. 미니배치 학습의 장점 1. 효율적인 메모리 사용: 대용량 데이터를 한 번에 메모리에 로드하지 않고 일부만 사용하여 메모리 부담을 줄일 수 있습니다. 2. 계산 속도 향상: 작은 미니배치에 대해 병렬 처리를 통해..