목록Programming/Web Scraping (16)
Allen's 데이터 맛집
이번에는 웹크롤링을 자동으로 할 때 강력한 프레임워크인 셀레늄(Selenium)을 사용해 보겠습니다 :) # 셀리니움 다운로드 pip install selenium 셀리니움을 다운 받으시고 크롬 드라이버도 같이 다운로드를 해주세요 버전은 인터넷 창에서 chrome://version 을 입력하시면 버전 및 정보가 나옵니다. https://chromedriver.chromium.org/downloads에서 맞는 버전 드라이버 다운로드하여주세요 아래의 send_keys에서 본인의 아이디와 패스워드를 입력하시면 크롬창이 켜지면서 네이버에서 자동으로 로그인을 하게 됩니다. from selenium import webdriver import time browser = webdriver.Chrome( 'C:\\Use..
네이버 금융에서 시가총액 1위부터 200위까지의 주식 정보를 csv파일 형식으로 저장하는 예제입니다. import csv import requests from bs4 import BeautifulSoup url = 'https://finance.naver.com/sise/sise_market_sum.nhn?sosok=0&page=' filename = '시가총액1-200.csv' #엑셀 파일로 열때 문자가 깨지면, utf8 이 아니라 utf-8-sig로 입력 f = open(filename, 'w', encoding='utf-8-sig', newline='') writer = csv.writer(f) title = 'N종목명현재가전일비등락률액면가시가총액상장주식수외국인비율거래량PERROE토론실'.split..
다음(Daum)의 영화 페이지에서 웹 크롤링을 진행 해보겠습니다. 다음의 영화사이트에서 2015년부터 2020년까지 1~5위까지 영화 이미지를 자동으로 다운로드하는 코드입니다 import requests from bs4 import BeautifulSoup #2015년부터 2020년 까지 1-5위 영화 이미지 다운 for year in range(2015,2020): url = ('https://search.daum.net/search?w=tot&q={}\ %EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR').format(year) res = requests.get(url) res.raise_for_status() soup = Beau..
이번 웹 크롤링은 쿠팡에서 분별력 있는 데이터를 필터링하여 수집해 보겠습니다 데이터는 임의로 '노트북'에 대해서 검색해 보겠습니다. 쿠팡에 들어가서 먼저 수많은 페이지가 있지만 그중에서 1~5페이지까지 노트북을 검색해 봅니다 그리고 평점이 좋은 노트북만 보고 싶어, 평점수가 100개 이상 그리고 평점이 4.5 이상인 것들을 추려봅니다. 애플 제품과 광고성으로 상단에 나오는 제품은 제외합니다 출력은 제품명, 가격, 평점, 바로가기 링크를 출력해 봅니다. import requests import re from bs4 import BeautifulSoup headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (..