教程 > scrapy 教程 > 阅读:19

scrapy 抓取的数据——迹忆客-ag捕鱼王app官网

存储抓取数据的最佳方法是使用 feed 导出,这可确保使用多种序列化格式正确存储数据。 jsonjsonlinescsvxml 是序列化格式中容易支持的格式。 可以使用以下命令存储数据

$ scrapy crawl dmoz -o data.json

此命令将创建一个 data.json 文件,其中包含 json 格式的抓取数据。 这种技术适用于少量数据。 如果必须处理大量数据,那么我们可以使用 item pipeline。 就像 data.json 文件一样,在 jiyik/pipelines.py 中创建项目时会设置一个保留文件。

查看笔记

扫码一下
查看教程更方便
网站地图