Allen's 데이터 맛집

세션메서드를 사용하여 크롤링 하기 본문

Programming/Docker

세션메서드를 사용하여 크롤링 하기

Allen93 2023. 8. 24. 22:16

오늘은 파이썬을 사용하여 웹페이지에서 정보를 가져오는 방법을 알려드릴게요.

세션메서드를 사용하여 다음 사이트에 로그인을 하여 해당 날짜를 확인하는 코드

먼저, requests와 BeautifulSoup이라는 도구를 사용해 웹페이지에 접속하고 정보를 가져옵니다. 세션을 만들어서 로그인을 하고, 로그인한 세션으로 원하는 정보가 있는 웹페이지에 접속합니다.

그 후  BeautifulSoup을 사용해서 웹페이지의 내용을 쉽게 분석하고 원하는 정보를 추출해 냅니다. 정보란 위에 언급한 데로 오늘의 날짜를 가져온답니다.

만일 여러분이 이 코드를 사용하려면, <아이디>와 <비밀번호> 부분을 자신의 다음 아이디와 비밀번호로 바꾸어주셔야 합니다. 

 

import requests
from bs4 import BeautifulSoup

#세션 만들기
session = requests.session()

#로그인
url = 'https://logins.daum.net/accounts/srp.do?slevel=1&rid=a820fe91-e068-468e-bc94-cdfc9759ed47&srplm1=2e4d43b2fa0a02abbd540bf4993d5e8a2d2932b76fca821f3d77e5f8651747a2'
data = {'url': 'https://www.daum.net/',
        'id': '<아이디>',
        'pw': '<비밀번호>',
        }

response = session.post(url, data=data)
response.raise_for_status()

#메일 정보 들고오기
headers = {"User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763'}
url = 'https://www.daum.net/'
response = session.get(url, headers=headers)
response.raise_for_status()

soup = BeautifulSoup(response.text, 'html.parser')
text = soup.find('strong', attrs = {'class':'date_today'}).get_text()

print('오늘의 날짜 : ', text)