목록전체 글 (340)
Allen's 데이터 맛집
로지스틱 회귀: 데이터에서 패턴을 찾는 마법 같은 모델 로지스틱 회귀는 데이터에서 어떤 패턴을 찾아내고, 그 패턴을 활용하여 미래의 상황을 예측하는 분류 모델입니다. 이 모델은 물론 회귀라는 이름이 붙어 있지만, 실제로는 주로 분류 작업에 사용됩니다. 로지스틱 회귀의 특징 이름 헷갈리지 말기! '로지스틱 회귀'라는 이름은 회귀라는 단어가 들어가지만, 실제로는 데이터의 분류 작업에 사용됩니다. 미래에 무엇이 발생활 지를 예측하는 것이 아니라, 어떤 분류에 속하는지를 예측하는 모델입니다. 0과 1 사이의 확률로 생각하기! 로지스틱 회귀는 예측 결과를 0과 1 사이의 값으로 변환합니다. 이 값을 확률로 해석하여, 어떤 클래스에 속할 가능성이 더 높은 지를 알 수 있습니다. S자 형태의 곡선을 그리기! 로지스틱..
데이터의 중요성: 머신러닝 모델 학습에 미치는 영향 머신러닝은 컴퓨터에게 데이터를 학습시켜 원하는 결과를 예측하거나 분류하는 기술입니다. 그렇다면, 어떤 데이터를 사용하느냐에 따라 모델의 성능과 신뢰도가 어떻게 변할까요? 이번 글에서는 데이터의 중요성에 대해 알아보겠습니다. 데이터가 왜 중요한가요? 머신러닝 모델은 데이터를 기반으로 학습됩니다. 모델이 학습하는 데이터의 양과 질은 결과에 큰 영향을 미칩니다. 데이터의 다양성과 품질: 다양한 데이터를 활용하면 모델이 다양한 상황을 이해하고 예측할 수 있습니다. 또한, 정확하고 깨끗한 데이터를 사용하면 모델이 패턴을 더 잘 파악할 수 있습니다. 데이터의 양: 데이터 양이 모델 성능에 직접적인 영향을 미칩니다. 충분한 양의 데이터가 있을 때 모델은 더 일반화된..
GridSearchCV란? GridSearchCV는 머신러닝에서 모델의 성능을 향상하기 위한 하이퍼파라미터 튜닝을 도와주는 도구입니다. 하이퍼파라미터는 모델 학습 과정을 제어하는 값으로, 제대로 설정하지 않으면 모델의 성능이 좋지 않을 수 있어요. 그래서 GridSearchCV는 여러 가지 하이퍼파라미터 조합을 시도해 보면서 최적의 조합을 찾아줍니다. 유명한 Iris(붓꽃)데이터를 가지고 GridSearchCV를 사용하여 최적의 하이퍼파라미터를 찾을 수 있습니다. from sklearn.model_selection import GridSearchCV from sklearn.svm import SVC from sklearn.datasets import load_iris # 데이터 불러오기 iris = lo..
파라미터란? 파라미터는 모델 자체가 데이터를 학습하면서 조정하는 '가중치' 같은 것이라고 생각하시면 됩니다. 예를 들어, 선형 회귀 모델에서 직선의 기울기와 절편이 파라미터입니다. 모델의 구성요소이며 데이터로부터 학습되는 것입니다. Linear Regression에서 y = Wx + b와 같은 직선 방정식의 W, b를 찾는 것 하이퍼 파라미터란? 반면에 하이퍼파라미터는 모델 학습 전에 수동으로 설정해야 하는 조절용 값으로, 모델의 학습 방식을 조정하는 역할을 합니다. 예를 들어, 신경망에서 학습률이나 은닉층의 개수 같은 값들이 하이퍼파라미터입니다. kNN에서 k의 개수, Ridge, Lasso의 α값, Learning Rate 등