목록전체 글 (367)
Allen's 데이터 맛집

PhantomJS란? PhantomJS는 브라우저 역할을 하는 Headless 웹 킷입니다. 이해하기 쉽게 설명하자면, 브라우저가 없는 브라우저라고 생각하시면 됩니다. Headless browser란? 헤드리스 브라우저는 그래픽 유저 인터페이스가 없는 웹브라우저를 뜻합니다. 헤드리스 브라우저는 웹 브라우저와 유사한 환경을 가졌지만 커맨드 라인 인터페이스를 통해 실행하고 제어할 수 있는 브라우저들을 말합니다. 헤드리스 브라우저엔 자바로 작성된 HtmlUnit이라는 것도 많이 사용됐었습니다. 이미지 출처 : https://tech.buzzvil.com/blog/scaling-phantomjs-ghost-town/ 1. 웹 페이지 자동화 PhantomJS는 웹 페이지를 불러오고 자동으로 상호 작용하는 데 사용..

오버피팅이란? 오버피팅은 모델이 훈련 데이터에 너무 맞춰져서 실제 데이터에서는 성능이 떨어지는 현상을 의미합니다. 마치 시험을 외우는 것과 비슷하죠. 중요한 것은 모델이 데이터 패턴을 너무 따라 하면서 유연성을 잃는 것을 방지하는 방법들을 알아보는 것입니다. 머신러닝 진행 시 주의해야되는 가장 중요한 문제 중 하나로써 아래의 강아지 집처럼 너무 잘 맞아떨어진다는 것입니다 해결 방법 방법으로는 아래의 방법들이 있습니다 - Cross Validation - Regularization - Remove Features - Ensembling

교차 검증은 모델의 성능을 더 정확하게 평가하기 위해 데이터를 여러 개의 폴드(fold)로 나누어 각각을 테스트 세트로 사용하고 나머지를 훈련 세트로 사용하는 방법입니다. 이를 통해 모델의 성능을 더 일반화된 방식으로 평가할 수 있습니다. 데이터가 충분하지 않을 경우 이전 포스팅의 Hold-out으로 나누면 많은 양의 분산 발생합니다. 이에 대한 해결책으로 교차검증을 사용할 수 있으나 클래스 불균형 데이터에는 적합하지 않습니다. https://allensdatablog.tistory.com/entry/%ED%99%80%EB%93%9C-%EC%95%84%EC%9B%83Hold-out%EC%9D%B4%EB%9E%80 홀드 아웃(Hold out)이란? 홀드아웃 이란? 홀드아웃 기법은 기계 학습 모델을 평가하기..

오늘은 파이썬을 사용하여 웹페이지에서 정보를 가져오는 방법을 알려드릴게요. 세션메서드를 사용하여 다음 사이트에 로그인을 하여 해당 날짜를 확인하는 코드 먼저, requests와 BeautifulSoup이라는 도구를 사용해 웹페이지에 접속하고 정보를 가져옵니다. 세션을 만들어서 로그인을 하고, 로그인한 세션으로 원하는 정보가 있는 웹페이지에 접속합니다. 그 후 BeautifulSoup을 사용해서 웹페이지의 내용을 쉽게 분석하고 원하는 정보를 추출해 냅니다. 정보란 위에 언급한 데로 오늘의 날짜를 가져온답니다. 만일 여러분이 이 코드를 사용하려면, 와 부분을 자신의 다음 아이디와 비밀번호로 바꾸어주셔야 합니다. import requests from bs4 import BeautifulSoup #세션 만들기 ..