목록Machine Learning (45)
Allen's 데이터 맛집
이번 포스팅에서는 데이터 분석의 강력한 도구 중 하나인 앙상블(Ensemble) 기법에 대해 쉽게 알아보려고 합니다. 앙상블은 여러 모델을 결합하여 단일 모델보다 높은 성능을 얻을 수 있도록 도와주는 획기적인 방법 중 하나입니다. 앙상블 기법이란? 앙상블은 여러 다른 모델들을 결합하여 하나의 강력한 모델을 만드는 방법입니다. 이는 여러 모델의 다양성을 활용하여 성능을 향상시키는 아이디어에 기반합니다. Voting, Bagging, Boosting, Stacking: 간단히 알아보기 1. Voting (보팅) Voting은 여러 다른 모델들의 예측을 종합하여 최종 예측을 결정하는 방법입니다. 주로 더 간단하고 다양한 모델들을 결합하여 성능을 높이는 데 사용됩니다. 2. Bagging (베깅) Bagging..
SVM(Support Vector Machine)에 대한 간단한 소개를 해보려고 합니다. 이 블로그 포스팅에서는 통계와 머신 러닝의 중요한 주제 중 하나인 SVM에 초점을 맞춰 다루어보겠습니다. SVM이란? SVM은 Support Vector Machine의 약자로, 주로 분류 및 회귀 분석에 사용되는 강력한 머신 러닝 알고리즘입니다. 이는 데이터를 고차원 공간으로 매핑하여 각각의 클래스를 분리하는 초평면을 찾는 것이 핵심 아이디어입니다. SVM의 기본 원리 SVM의 기본 원리는 데이터를 가장 잘 나누는 초평면을 찾는 것입니다. 이때, 데이터의 일부만이 아닌 Support Vectors라고 불리는 데이터 포인트들이 초평면을 결정하는 데에 주요한 역할을 합니다. SVM의 간단한 예시 예를 들어, 두 개의 ..
오늘은 작은 데이터에서 빛을 발하는 부트스트랩(Bootstrap)에 대해 이야기하려고 해요. 작은 데이터셋에서도 통계적인 힘을 끌어올릴 수 있는 부트스트랩이란 무엇일까요? 부트스트랩이란? 부트스트랩은 통계학의 마법 같은 기술 중 하나입니다. 작은 샘플 데이터로부터 모집단의 특성을 추정하거나 가설을 검정하는 데에 사용됩니다. 작동 원리 1.샘플링 부트스트랩은 샘플 데이터에서 중복을 허용하며 무작위로 복원 추출합니다. 즉, 데이터에서 임의로 관측치를 선택하고, 다시 원래 데이터로 돌려놓고, 다음 번에 또 선택하는 식으로 샘플을 만듭니다. 2.추정 이렇게 만들어진 부트스트랩 샘플을 기반으로 우리가 원하는 통계량(평균, 중앙값 등)을 계산해봅니다. 여러 번 반복해서 샘플을 만들면, 우리는 통계량의 분포를 얻을 ..
분류(Classification)와 군집(Clustering)은 기계 학습의 두 가지 주요 작업입니다. 그러나 이 두 작업은 목적과 접근 방식에서 차이가 있습니다. 1. 분류 (Classification) 목적: 주어진 입력 데이터를 사전에 정의된 클래스 또는 범주로 분류하는 것이 목표입니다. 학습 방식: 지도학습(Supervised Learning)에 해당합니다. 레이블이 지정된 훈련 데이터를 사용하여 모델을 학습하고, 새로운 데이터에 대한 클래스를 예측합니다. 예시: 스팸 메일 감지, 손글씨 숫자 인식, 암 진단 등 2. 군집 (Clustering) 목적: 주어진 데이터를 비슷한 특성이나 패턴을 공유하는 그룹 또는 군집으로 나누는 것이 목표입니다. 학습 방식: 비지도학습(Unsupervised Lea..