웹 스크래핑, 웹 크롤링 이란?

Programming/Web

웹 스크래핑, 웹 크롤링 이란?

Allen93 2023. 8. 6. 00:11

데이터 분석을 하기 위해 데이터 수집에 대해서 공부를 시작할 때 보았던 것이 웹 스크래핑, 그리고 웹 크롤링 입니다.

데이터 분석을 하기 위해선 데이터가 있어야 하는데, csv파일처럼 제공되는 게 아닌, 웹에 있는 데이터를 저희가 가져오려 할 때 이 기술이 필요합니다

웹스크래핑. 출처 : https://maruzzing.github.io/study/py/requests%EC%99%80-bs4%EB%A5%BC-%EC%82%AC%EC%9A%A9%ED%95%B4-%EC%9B%B9%ED%81%AC%EB%A1%A4%EB%9F%AC-%EB%A7%8C%EB%93%A4%EA%B8%B0/

웹 스크래핑 (web scraping)

웹 사이트 상에서 원하고 필요한 부분에 위치한 정보를 컴퓨터로 하여금 자동으로 추출하여 수집하는 기술입니다

웹 스크랩 (웹 수집이라고도 함)은 웹 사이트에서 데이터를 추출하는 프로세스입니다. 웹 스크래핑의 목적은 웹에서 공개되어 있는 데이터를 자동으로 수집하여 데이터를 추출하고 저장한 후 여러 가지 용도로 사용하기 위함입니다.

웹 크롤링

자동화 봇인 웹 크롤러가 정해진 규칙에 따라 복수 개의 웹 페이즈를 브라우징 하는 행위입니다

봇은 어떻게 콘텐츠를 읽어갈 수 있을까요?

웹 사이트 스크레이퍼 봇은 일반적으로 일련의 HTTP GET 요청을 보낸 다음 웹 서버가 전송하는 모든 정보를 복사하여 저장하여 웹 사이트가 모든 콘텐츠를 복사할 수 있습니다. 예를 들어, 보다 정교한 스크레이퍼 봇은 JavaScript를 사용하여 웹 사이트의 모든 양식을 작성하고 모든 게이트 된 콘텐츠를 다운로드할 수 있습니다. “브라우저 자동화”프로그램 및 API를 사용하면 웹 사이트 및 API가 마치 웹 사용자가 콘텐츠에 액세스 한다고 생각하도록 웹 사이트의 서버를 속이려고 하는 것처럼 웹 사이트 및 API와 자동화된 봇 상호 작용이 가능합니다.

728x90

저작자표시 비영리 변경금지 (새창열림)