

教程 > 阅读：179

scrapy 教程——迹忆客-ag捕鱼王app官网

scrapy 是一个用 python 编写的快速、开源的网络爬虫框架，用于借助基于 xpath 的选择器从网页中提取数据。

scrapy 于 2008 年 6 月 26 日在 bsd 下首次发布，并于 2015 年 6 月发布了里程碑式的 1.0。

为什么要使用 scrapy？

更容易构建和扩展大型爬虫项目。
它有一个称为选择器的内置机制，用于从网站中提取数据。
它异步处理请求并且速度很快。
它使用自动节流机制自动调整爬行速度。
确保开发人员可访问性。

scrapy的特点

scrapy 是一个开源且可免费使用的网络爬虫框架。
scrapy 生成 json、csv 和 xml 等格式的提要导出。
scrapy 内置支持通过 xpath 或 css 表达式从源中选择和提取数据。
基于爬虫的 scrapy，允许自动从网页中提取数据。

优点

scrapy 易于扩展、快速且功能强大。
它是一个跨平台的应用程序框架（windows、linux、mac os 和 bsd）。
scrapy 请求是异步调度和处理的。
scrapy 带有名为 scrapyd 的内置服务，它允许使用 json web 服务上传项目和控制蜘蛛。
可以删除任何网站，尽管该网站没有用于访问原始数据的 api。

缺点

scrapy 仅适用于 python 2.7。
不同操作系统的安装是不同的。

阅读前需要准备的知识

本教程专为需要从零开始学习 scrapy 网络爬虫的软件程序员而设计。

大家应该对计算机编程术语和 python 有基本的了解。对 xpath 有基本了解者优先。

scrapy 命令行工具 

查看笔记

扫码一下

查看教程更方便