목록웹스크래핑 (5)
Allen's 데이터 맛집

https://www.docker.com/get-started/ Get Started | Docker Get started with Docker Desktop and join millions of developers in faster, more secure app development using containers and beyond. www.docker.com Docker toolbox는 더 이상 지원되지 않으니, Docker 공식 홈페이지에서 docker desktop 를 다운로드 합니다. Docker 설치 후, CMD 창에서 해당 문구를 입력 하였을때 아래와같은 글들이 뜨면 환경 설정이 완료 됩니다. docker run hello-world Miniconda3 우분투를 깔아놓고 그 위에 Anacon..

구글 무비 인기차트에서 데이터를 가져와 보겠습니다. 보통 웹 사이트를 들어가면 접속이 될 때 불러와지는 것이 아니라 사용자의 이벤트가 있을때 동작을 하는 경우를 바로 동적 페이지라고 합니다. 쉽게 말하자면 페이지를 맨 밑까지 내리면 새롭게 로딩이 되면서 새로운 콘텐츠가 뜨는 방식입니다 아래 코드는 순차적으로 로딩을 하며 영화가 뜨기 때문에 스크롤을 가장 밑으로 내리고 2초대기, 다시 가장 밑으로 내리고 2초 대기를 하며 제일 밑까지 이동합니다. 그리고 스크롤 완료 출력 후 영화를 출력하는데 할인된 영화의 정보만 출력합니다. from bs4 import BeautifulSoup import requests import time from selenium import webdriver browser = web..

네이버 금융에서 시가총액 1위부터 200위까지의 주식 정보를 csv파일 형식으로 저장하는 예제입니다. import csv import requests from bs4 import BeautifulSoup url = 'https://finance.naver.com/sise/sise_market_sum.nhn?sosok=0&page=' filename = '시가총액1-200.csv' #엑셀 파일로 열때 문자가 깨지면, utf8 이 아니라 utf-8-sig로 입력 f = open(filename, 'w', encoding='utf-8-sig', newline='') writer = csv.writer(f) title = 'N종목명현재가전일비등락률액면가시가총액상장주식수외국인비율거래량PERROE토론실'.split..
xml (Extensible Markup Language) XML이란 단순한 문자열을 넘어서서, 내부적으로 트리 구조를 가지고 있는 파일을 표현하기 위해 사용하는 마크업 언어입니다. 웹페이지를 보여주기 위해 사용되는 html 파일이 XML의 가장 대표적인 예시입니다. 그뿐만이 아니라 우리가 친숙하게 사용하는 MS Office의 워드, 엑셀, 파워포인트 파일(docx, xlsx, pptx)도 XML 의 일종입니다. 따라서 XML을 해석하는 프로그램(parser)을 미리 준비해야 html, docx, xlsx, pptx와 같이 우리가 흔히 다루는 파일을 처리할 수 있습니다. Python에서 XML parser로서 주로 이용되는 패키지는 lxml입니다. pip install lxml