教程 > scrapy 教程 > 阅读:23

scrapy feed 导出——迹忆客-ag捕鱼王app官网

feed 导出是一种存储从站点抓取的数据的方法,即生成“导出文件”。

序列化格式

使用多种序列化格式和存储后端,feed exports 使用 item exporters 并生成包含已抓取项目的 feed。

下表显示了支持的格式

序号 格式 描述
1 json feed_format 是 json
使用的 export 是类 scrapy.exporters.jsonitemexporter
2 json lines feed_fromat 是 jsonlines
使用的 export 是类 scrapy.exporters.jsonlinesitemexporter
3 csv feed_format 是 csv
使用的 export 是类 scrapy.exporters.csvitemexporter
4 xml feed_format 是 xml
使用的 export 是类 scrapy.exporters.xmlitemexporter

使用 feed_exporters 设置,支持的格式也可以扩展

序号 格式 描述
1 pickle feed_format 是 pickel
使用的export是类 scrapy.exporters.pickleitemexporter
2 marshal feed_format 是 marshal
使用的export是类 scrapy.exporters.marshalitemexporter

存储后端

存储后端定义使用 uri 存储提要的位置。

下表显示了支持的存储后端

序号 存储后端 描述
1 本地文件系统 uri 方案是文件,用于存储提要。
2 ftp uri 方案是 ftp,用于存储提要。
3 s3 uri 方案是 s3,提要存储在 amazon s3 上。 需要外部库 botocore 或 boto。
4 标准输出 uri 方案是标准输出,提要存储到标准输出。

存储 uri 参数

以下是存储 url 的参数,它在创建提要时被替换

  • %(time)s :此参数被时间戳替换。
  • %(name)s :此参数被蜘蛛名称替换。

设置

下表显示了可以配置 feed 导出的设置

序号 设置 描述
1 feed_uri 它是用于启用提要导出的导出提要的 uri。
2 feed_format 它是一种用于提要的序列化格式。
3 feed_export_fields 用于定义需要导出的字段。
4 feed_store_empty 它定义是否导出没有项目的提要。
5 feed_storages 它是一个带有附加提要存储后端的字典。
6 feed_storages_base 它是一个内置提要存储后端的字典。
7 feed_exporters 它是一本包含额外提要 export 的字典。
8 feed_exporters_base 它是一个内置提要导出器的字典。

查看笔记

扫码一下
查看教程更方便
网站地图