목록python (44)
Allen's 데이터 맛집

"데이터 예측의 힘, 앙상블(Ensemble) 모델" 지난번에 이어서 데이터 분석과 머신러닝의 대표적인 모델 중 하나인 '앙상블(Ensemble)' 모델을 살펴보려 합니다. 앙상블은 다양한 예측 모델을 결합하여 보다 강력하고 정확한 예측을 이끌어내는 방법입니다. 앙상블은 여러 개의 예측 모델을 함께 사용하여 결과를 조합하는 기법을 의미합니다. 이는 한 사람의 전문적인 의견보다 다양한 사람들의 의견을 듣는 것과 비슷합니다. 다양한 모델이 각자의 강점을 가지고 있기 때문에, 이들을 조합하면 전체적으로 성능을 향상시킬 수 있습니다. 이미지 출처 : https://velog.io/@changhtun1/ensemble 파이썬 코드 예제: from sklearn.datasets import load_iris fro..

"데이터의 숨은 규칙, Decision Tree 모델" 데이터 분석과 머신러닝을 통해 현실을 해석하고 예측하는 데 도움이 되는 다양한 알고리즘 중 하나인 'Decision Tree(의사 결정 트리)' 모델을 소개하려 합니다. 이 모델은 마치 의사 결정을 내리는 과정과 유사하게 데이터의 규칙을 분석하여 판단하는 간단하면서도 강력한 도구입니다. 이미지 출처 : https://algodaily.com/lessons/decision-trees-basics Decision Tree는 데이터의 특성과 결과 사이에 내재된 패턴을 찾아내기 위해 사용됩니다. 이 모델은 나무 구조와 비슷한 형태로, 데이터를 여러 개의 '분기점'과 '리프(Leaf)'로 나누어 각각의 분기점에서 최적의 결정을 내리게 됩니다. 이는 마치 미로..

도커 환경에서 개발환경 설정 1. cmd에서 docker pull ubuntu:16.04 [우분투 파일 들고 오기] 2. docker run -it ubuntu:16.04 [우분투 실행] 3. apt-get update [우분투 업데이트 실시] 4. apt-get install -y python3 python3-pip [y 옵션으로 python3와 python3 pip 설치] 5. pip3 install selenium [셀리니움 설치] 6. pip3 install beautifulsoup4 [뷰티풀 습 다운] 팬텀JS 다운로드 1. apt-get install -y wget libfontconfig [펜텀 js 다운로드] 2. mkdir -p /home/root/src && cd$_ [해당 폴더를 생성..

교차 검증은 모델의 성능을 더 정확하게 평가하기 위해 데이터를 여러 개의 폴드(fold)로 나누어 각각을 테스트 세트로 사용하고 나머지를 훈련 세트로 사용하는 방법입니다. 이를 통해 모델의 성능을 더 일반화된 방식으로 평가할 수 있습니다. 데이터가 충분하지 않을 경우 이전 포스팅의 Hold-out으로 나누면 많은 양의 분산 발생합니다. 이에 대한 해결책으로 교차검증을 사용할 수 있으나 클래스 불균형 데이터에는 적합하지 않습니다. https://allensdatablog.tistory.com/entry/%ED%99%80%EB%93%9C-%EC%95%84%EC%9B%83Hold-out%EC%9D%B4%EB%9E%80 홀드 아웃(Hold out)이란? 홀드아웃 이란? 홀드아웃 기법은 기계 학습 모델을 평가하기..