목록전체 글 (367)
Allen's 데이터 맛집
이번엔 네이버 웹툰 페이지에서 웹툰의 제목과 평점을 가져오는 간단한 웹 스크래핑을 해보겠습니다:) 코드를 통해 웹툰의 제목과 해당 웹툰의 평점을 추출하고, 전체 평균 평점을 계산합니다. import requests from bs4 import BeautifulSoup url = 'https://comic.naver.com/webtoon/list.nhn?titleId=64997' res = requests.get(url) res.raise_for_status() soup = BeautifulSoup(res.text, 'lxml') cartoons = soup.find_all('td', attrs = {'class':'title'}) #평점 구하기 total_rates = 0 #전체 평점 cartoons =..

간단하게 네이버 웹툰에서 Requests와 Beautifulsoup 모듈을 사용하여 제가 좋아하는 나이트런 이라는 웹툰의 제목과 링크를 가져와보겠습니다. import requests from bs4 import BeautifulSoup url = 'https://comic.naver.com/webtoon/list.nhn?titleId=64997' res = requests.get(url) res.raise_for_status() soup = BeautifulSoup(res.text, 'lxml') cartoons = soup.find_all('td', attrs = {'class':'title'}) #td element 중 title이 클래스 인것 #만화 제목 + 링크 가져오기 #title 의 text만..
xml (Extensible Markup Language) XML이란 단순한 문자열을 넘어서서, 내부적으로 트리 구조를 가지고 있는 파일을 표현하기 위해 사용하는 마크업 언어입니다. 웹페이지를 보여주기 위해 사용되는 html 파일이 XML의 가장 대표적인 예시입니다. 그뿐만이 아니라 우리가 친숙하게 사용하는 MS Office의 워드, 엑셀, 파워포인트 파일(docx, xlsx, pptx)도 XML 의 일종입니다. 따라서 XML을 해석하는 프로그램(parser)을 미리 준비해야 html, docx, xlsx, pptx와 같이 우리가 흔히 다루는 파일을 처리할 수 있습니다. Python에서 XML parser로서 주로 이용되는 패키지는 lxml입니다. pip install lxml
User Agent 란? 사용자 에이전트(user agent)는 사용자를 대표하는 컴퓨터 프로그램으로, 웹 맥락에선 브라우저를 의미합니다. 브라우저 외에도 웹 페이지를 긁어가는 봇, 다운로드 관리자, 웹에 접근하는 다른 앱도 사용자 에이전트입니다. 브라우저는 서버에 보내는 모든 요청에 사용자 에이전트 문자열이라고 부르는, 자신의 정체를 알리는 User-Agent (en-US) HTTP 헤더를 보냅니다. 이 문자열은 보통 브라우저 종류, 버전 번호, 호스트 운영체제를 포함합니다. 스팸 봇, 다운로드 관리자, 일부 브라우저는 자신의 정체를 숨기고 다른 클라이언트인 척하려고 가짜 사용자 에이전트 문자열을 보내곤 하며, 이를 사용자 에이전트 스푸핑(spoofing)이라고 말합니다. 클라이언트에서는 JavaScr..