목록맛집 List (340)
Allen's 데이터 맛집
이번 웹 크롤링은 쿠팡에서 분별력 있는 데이터를 필터링하여 수집해 보겠습니다 데이터는 임의로 '노트북'에 대해서 검색해 보겠습니다. 쿠팡에 들어가서 먼저 수많은 페이지가 있지만 그중에서 1~5페이지까지 노트북을 검색해 봅니다 그리고 평점이 좋은 노트북만 보고 싶어, 평점수가 100개 이상 그리고 평점이 4.5 이상인 것들을 추려봅니다. 애플 제품과 광고성으로 상단에 나오는 제품은 제외합니다 출력은 제품명, 가격, 평점, 바로가기 링크를 출력해 봅니다. import requests import re from bs4 import BeautifulSoup headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (..
이번엔 네이버 웹툰 페이지에서 웹툰의 제목과 평점을 가져오는 간단한 웹 스크래핑을 해보겠습니다:) 코드를 통해 웹툰의 제목과 해당 웹툰의 평점을 추출하고, 전체 평균 평점을 계산합니다. import requests from bs4 import BeautifulSoup url = 'https://comic.naver.com/webtoon/list.nhn?titleId=64997' res = requests.get(url) res.raise_for_status() soup = BeautifulSoup(res.text, 'lxml') cartoons = soup.find_all('td', attrs = {'class':'title'}) #평점 구하기 total_rates = 0 #전체 평점 cartoons =..
간단하게 네이버 웹툰에서 Requests와 Beautifulsoup 모듈을 사용하여 제가 좋아하는 나이트런 이라는 웹툰의 제목과 링크를 가져와보겠습니다. import requests from bs4 import BeautifulSoup url = 'https://comic.naver.com/webtoon/list.nhn?titleId=64997' res = requests.get(url) res.raise_for_status() soup = BeautifulSoup(res.text, 'lxml') cartoons = soup.find_all('td', attrs = {'class':'title'}) #td element 중 title이 클래스 인것 #만화 제목 + 링크 가져오기 #title 의 text만..
xml (Extensible Markup Language) XML이란 단순한 문자열을 넘어서서, 내부적으로 트리 구조를 가지고 있는 파일을 표현하기 위해 사용하는 마크업 언어입니다. 웹페이지를 보여주기 위해 사용되는 html 파일이 XML의 가장 대표적인 예시입니다. 그뿐만이 아니라 우리가 친숙하게 사용하는 MS Office의 워드, 엑셀, 파워포인트 파일(docx, xlsx, pptx)도 XML 의 일종입니다. 따라서 XML을 해석하는 프로그램(parser)을 미리 준비해야 html, docx, xlsx, pptx와 같이 우리가 흔히 다루는 파일을 처리할 수 있습니다. Python에서 XML parser로서 주로 이용되는 패키지는 lxml입니다. pip install lxml