웹 스크래핑, 웹 크롤링 이란?
데이터 분석을 하기 위해 데이터 수집에 대해서 공부를 시작할 때 보았던 것이 웹 스크래핑, 그리고 웹 크롤링 입니다.
데이터 분석을 하기 위해선 데이터가 있어야 하는데, csv파일처럼 제공되는 게 아닌, 웹에 있는 데이터를 저희가 가져오려 할 때 이 기술이 필요합니다
웹 스크래핑 (web scraping)
웹 사이트 상에서 원하고 필요한 부분에 위치한 정보를 컴퓨터로 하여금 자동으로 추출하여 수집하는 기술입니다
웹 스크랩 (웹 수집이라고도 함)은 웹 사이트에서 데이터를 추출하는 프로세스입니다. 웹 스크래핑의 목적은 웹에서 공개되어 있는 데이터를 자동으로 수집하여 데이터를 추출하고 저장한 후 여러 가지 용도로 사용하기 위함입니다.
웹 크롤링
자동화 봇인 웹 크롤러가 정해진 규칙에 따라 복수 개의 웹 페이즈를 브라우징 하는 행위입니다
봇은 어떻게 콘텐츠를 읽어갈 수 있을까요?
웹 사이트 스크레이퍼 봇은 일반적으로 일련의 HTTP GET 요청을 보낸 다음 웹 서버가 전송하는 모든 정보를 복사하여 저장하여 웹 사이트가 모든 콘텐츠를 복사할 수 있습니다. 예를 들어, 보다 정교한 스크레이퍼 봇은 JavaScript를 사용하여 웹 사이트의 모든 양식을 작성하고 모든 게이트 된 콘텐츠를 다운로드할 수 있습니다. “브라우저 자동화”프로그램 및 API를 사용하면 웹 사이트 및 API가 마치 웹 사용자가 콘텐츠에 액세스 한다고 생각하도록 웹 사이트의 서버를 속이려고 하는 것처럼 웹 사이트 및 API와 자동화된 봇 상호 작용이 가능합니다.