목록맛집 List (320)
Allen's 데이터 맛집
User Agent 란? 사용자 에이전트(user agent)는 사용자를 대표하는 컴퓨터 프로그램으로, 웹 맥락에선 브라우저를 의미합니다. 브라우저 외에도 웹 페이지를 긁어가는 봇, 다운로드 관리자, 웹에 접근하는 다른 앱도 사용자 에이전트입니다. 브라우저는 서버에 보내는 모든 요청에 사용자 에이전트 문자열이라고 부르는, 자신의 정체를 알리는 User-Agent (en-US) HTTP 헤더를 보냅니다. 이 문자열은 보통 브라우저 종류, 버전 번호, 호스트 운영체제를 포함합니다. 스팸 봇, 다운로드 관리자, 일부 브라우저는 자신의 정체를 숨기고 다른 클라이언트인 척하려고 가짜 사용자 에이전트 문자열을 보내곤 하며, 이를 사용자 에이전트 스푸핑(spoofing)이라고 말합니다. 클라이언트에서는 JavaScr..
Xpath란? Xpath란 XML Path Language의 약어로써 XML 문서의 특정 요소나 속성에 접근하기 위한 경로를 지정하는 언어입니다. XPath는 XML 문서의 특정 요소나 속성에 접근하기 위한 경로를 지정하는 언어입니다. XPath는 W3C 표준 권고안으로, XSLT와 XPointer에 사용될 목적으로 만들어졌습니다. 또한, XML DOM에서 노드를 검색할 때에도 사용할 수 있습니다. 예 : [@id="login"]
데이터를 전처리를 할 때 기법으로 많이 쓰이는 정규화 표현식에 대해서 간단하게 알아보겠습니다 간단히 설명하자면 정해져있는 규칙에 따라서 문자를 추출하는 방법이라고 생각하시면 됩니다 정규화 표현식 p = re.compile('원하는 형태') m = p.match('비교할 문자열') : 주어진 문자열의 처음부터 일치하는지 확인. m = p.search('비교할 문자열') : 주어진 문자열 중에 일차하는게 있는지 확인. lst = p.findall('비교할 문자열) : 일치하는 모든 것을 리스트 형태로 반환 정규식 예 . : 하나의 문자를 의미. ^ : 문자열의 시작. $ : 문자열의 끝. #파이썬에서 정규 표현식을 지원하는 re 모듈 import re p = re.compile('ca.e') def prin..
데이터를 수집할 때 많이 쓰이는 라이브러리 Requests에 대해서 알아보겠습니다🎈 Requets 모듈은 웹페이지에서 HTTP 요청을 보내 원하는 HTML 정보를 가져오는 라이브러리입니다. Requests 모듈을 사용하기 위해서는 먼저 웹페이지에서 요청하는 방식인 POST와 GET 방식을 알아야 할 필요가 있습니다. 그 이유는 어떤 방식이냐에 따라 parameter(매개변수)를 전달하는 방법이 다르기 때문입니다. POST인지 GET 방식인지 확인하는 방법은 크롬기준으로 개발자 도구(Ctrl + shift + i) -> Network 목록에 들어가면 수많은 소스가 나오는데 아무 페이지나 이동후 소스파일을 확인해 보면 Request Method : 에서 어떤 방식인지 확인할 수 있습니다. Get 방식 GET..