반응형

겁나 빠른기로 소문난 Scrapy 파이썬으로 작성된 오픈-소스 크롤링 프레임워크입니다.

XPath 기반한 셀렉터의 도움으로 비롯해 웹페이지에서 데이터를 추출하기위해 주로 사용됩니다.


BSD 따라 2008626일에 처음 릴리즈되었으며, 2015 6월에 이정표인 1.0 버전이 릴리즈 되었습니다.


Scrapy 사용하는가?

  • 스케일이 크롤링 프로젝트를 쉽게 빌드할 있습니다.
  • “Selector”라고 불리는 built-in 메카니즘을 가지고있으며 웹사이트에서 데이터를 추출하는데 중요한 역할을 합니다.
  • 비동기로 리퀘스트를 처리하고 빠릅니다!
  • 오토-쓰로틀링 메카니즘을 사용하여 크롤링 속도를 자동으로 조율합니다.
  • 개발자 접근성을 보증합니다.!


Scrapy 특징

  • 크롤링 프레임워크로서 오픈소스임과 동시에 무료입니다!
  • JSON, CSV, XML 등의 포맷ㅇ로 feed export 생성해줍니다.
  • XPath 혹은 CSS 표현식을 사용하여 소스에서 데이터를 선택/추출하는 기능이 내장되어(built-in)있습니다.
  • 웹페이지로 데이터를 자동으로 추출하는크롤러 베이스로 되어있습니다.


Scarpy 강점

  • 쉡게 확장할수있고 빠르고 강력합니다.
  • Cross-platform application framework 입니다.(WINDOW, LINUX, MAC OS, BSD …)
  • Scrapy Request 비동기적으로 스케쥴되고 처리됩니다.
  • Scrapy 내장된 서비스 Scrapyd JSON 웹서비스를 이용하여 스파이더를 제어할 있고 프로젝트에 업로드할 있게 해줍니다.
  • 어떤 웹사이트가 raw data 접근을 지원하는 API 없음에도 활용할 있습니다.


Scrapy 단점

  • 파이썬 2.7+만을 지원합니다.
  • OS마다 설치법이 다릅니다.


반응형
by 밑바닥에서 글로벌로~ 발전소장 에르 :) 2017. 10. 17. 10:47