教程 > scrapy 教程 > 阅读：29

scrapy 设置——迹忆客-ag捕鱼王app官网

scrapy 组件的行为可以使用 scrapy 设置进行修改。设置也可以选择当前激活的scrapy项目，以防你有多个scrapy项目。

指定设置

当你废弃一个网站时，你必须通知 scrapy 你正在使用的设置。为此，应使用环境变量 scrapy_settings_module，其值应采用 python 路径语法。

填充设置

下表显示了一些可以用来填充设置的机制

序号	机制	描述
1	命令行选项	在这里，传递的参数通过覆盖其他选项而具有最高优先级。 `-s` 用于覆盖一个或多个设置。 `$ scrapy crawl myspider -s log_file = scrapy.log`
2	每个蜘蛛的设置	蜘蛛可以有自己的设置，通过使用属性 `custom_settings` 覆盖项目的设置。 `class demospider(scrapy.spider): name = 'demo' custom_settings = { 'some_setting': 'some value', }`
3	项目设置模块	在这里，我们可以填充自定义设置，例如添加或修改 settings.py 文件中的设置。
4	每个命令的默认设置	每个 scrapy 工具命令在 `default_settings` 属性中定义自己的设置，以覆盖全局默认设置。
5	默认全局设置	这些设置位于 `scrapy.settings.default_settings` 模块中。

访问设置

它们可以通过 self.settings 获得，并在初始化后在 base spider 中设置。

以下示例演示了这一点。

class demospider(scrapy.spider): 
   name = 'demo' 
   start_urls = ['http://example.com']  
   def parse(self, response): 
      print("existing settings: %s" % self.settings.attributes.keys())

要在初始化蜘蛛之前使用设置，我们必须在蜘蛛的 _init_() 方法中覆盖 from_crawler 方法。我们可以通过传递给 from_crawler 方法的属性 scrapy.crawler.crawler.settings 访问设置。

以下示例演示了这一点。

class myextension(object): 
   def __init__(self, log_is_enabled = false): 
      if log_is_enabled: 
         print("enabled log") 
         @classmethod 
   def from_crawler(cls, crawler): 
      settings = crawler.settings 
      return cls(settings.getbool('log_enabled'))

设置名称作为前缀添加到它们配置的组件中。例如，对于 robots.txt 扩展，设置名称可以是 robotstxt_enabled、robotstxt_obey、robotstxt_cachedir 等。

内置设置参考

下表为scrapy内置设置

序号	设置	描述
1	aws_access_key_id	它用于访问 amazon web services。默认值: none
2	aws_secret_access_key	它用于访问 amazon web services。默认值: none
3	bot_name	它是可用于构建 `user-agent` 的 bot 的名称。默认值: 'scrapybot'
4	concurrent_items	项目处理器中用于并行处理的最大现有项目数。默认值: 100
5	concurrent_requests	scrapy 下载器执行的现有请求的最大数量。默认值: 16
6	concurrent_requests_per_domain	对任何单个域同时执行的最大现有请求数。默认值: 8
7	concurrent_requests_per_ip	同时对任何单个 ip 执行的现有请求的最大数量。默认值: 0
8	default_item_class	它是一个用于表示项目的类。默认值: 'scrapy.item.item'
9	default_request_headers	它是用于 scrapy 的 http 请求的默认标头。默认值 − `{ 'accept': 'text/html,application/xhtml xml,application/xml;q=0.9, /;q=0.8', 'accept-language': 'en', }`
10	depth_limit	蜘蛛爬行任何站点的最大深度。默认值: 0
11	depth_priority	它是一个整数，用于根据深度改变请求的优先级。默认值: 0
12	depth_stats	它说明是否收集深度统计数据。默认值: true
13	depth_stats_verbose	启用此设置后，请求数将收集在每个详细深度的统计信息中。默认值: false
14	dnscache_enabled	它用于在内存缓存中启用 dns。默认值: true
15	dnscache_size	它定义了 dns 在内存缓存中的大小。默认值: 10000
16	dns_timeout	它用于设置 dns 处理查询的超时时间。默认值: 60
17	downloader	它是用于抓取过程的下载器。默认值: 'scrapy.core.downloader.downloader'
18	downloader_middlewares	它是一个包含下载器中间件及其命令的字典。默认值: {}
19	downloader_middlewares_base	它是一个包含默认启用的下载器中间件的字典。默认值 − `{ 'scrapy.downloadermiddlewares.robotstxt.robotstxtmiddleware': 100, }`

20	downloader_stats	此设置用于启用下载器统计信息。默认值: true
21	download_delay	它定义了下载器从站点下载页面之前的总时间。默认值: 0
22	download_handlers	它是一个带有下载处理程序的字典。默认值: {}
23	download_handlers_base	它是一个带有默认启用的下载处理程序的字典。默认值 − `{ 'file': 'scrapy.core.downloader.handlers.file.filedownloadhandler', }`
24	download_timeout	它是下载器在超时之前等待的总时间。默认值: 180
25	download_maxsize	它是下载程序下载的最大响应大小。默认值: 1073741824 (1024mb)
26	download_warnsize	它定义了下载器警告的响应大小。默认值: 33554432 (32mb)
27	dupefilter_class	它是一个用于检测和过滤重复请求的类。默认值: 'scrapy.dupefilters.rfpdupefilter'
28	dupefilter_debug	当设置为 true 时，此设置会记录所有重复的过滤器。默认值: false
29	editor	它用于使用 edit 命令编辑蜘蛛。默认值: depends on the environment
30	extensions	它是一个字典，具有在项目中启用的扩展。默认值: {}
31	extensions_base	它是一个具有内置扩展的字典。默认值: { 'scrapy.extensions.corestats.corestats': 0, }
32	feed_tempdir	用于设置自定义存放爬虫临时文件的目录。
33	item_pipelines	这是一个有管道的字典。默认值: {}
34	log_enabled	它定义是否启用日志记录。默认值: true
35	log_encoding	它定义了用于日志记录的编码类型。默认值: 'utf-8'
36	log_file	它是用于日志输出的文件的名称。默认值: none
37	log_format	它是一个字符串，可以使用它来格式化日志消息。默认值: `'%(asctime)s [%(name)s] %(levelname)s: %(message)s'`
38	log_dateformat	它是一个字符串，可以使用它来格式化日期/时间。默认值: '%y-%m-%d %h:%m:%s'
39	log_level	它定义了最低日志级别。默认值: 'debug'
40	log_stdout	此设置如果设置为 true，我们所有的进程输出都将出现在日志中。默认值: false
41	memdebug_enabled	它定义是否启用内存调试。默认值: false
42	memdebug_notify	它定义了在启用内存调试时发送到特定地址的内存报告。默认值: []
43	memusage_enabled	它定义了当 scrapy 进程超过内存限制时是否启用内存使用。默认值: false
44	memusage_limit_mb	它定义了允许的内存的最大限制（以兆字节为单位）。默认值: 0
45	memusage_check_interval_seconds	它用于通过设置间隔的长度来检查当前的内存使用情况。默认值: 60.0
46	memusage_notify_mail	它用于在内存达到限制时通过电子邮件列表进行通知。默认值: false
47	memusage_report	它定义是否在关闭每个蜘蛛时发送内存使用报告。默认值: false
48	memusage_warning_mb	它定义了在发送警告之前允许的总内存。默认值: 0
49	newspider_module	它是一个使用 genspider 命令创建新蜘蛛的模块。默认值: ''
50	randomize_download_delay	它定义了 scrapy 在从站点下载请求时等待的随机时间。默认值: true
51	reactor_threadpool_maxsize	它定义了反应器线程池的最大大小。默认值: 10
52	redirect_max_times	它定义了一个请求可以被重定向多少次。默认值: 20
53	redirect_priority_adjust	设置此设置后，调整请求的重定向优先级。默认值: 2
54	retry_priority_adjust	设置此设置后，调整请求的重试优先级。默认值: -1
55	robotstxt_obey	当设置为 true 时，scrapy 遵守 robots.txt 策略。默认值: false
56	scheduler	它定义了用于爬网目的的调度程序。默认值: 'scrapy.core.scheduler.scheduler'
57	spider_contracts	它是项目中的字典，有蜘蛛合同来测试蜘蛛。默认值: {}
58	spider_contracts_base	它是一个保存 scrapy 合约的字典，默认情况下在 scrapy 中启用。默认值 − `{ 'scrapy.contracts.default.urlcontract' : 1, 'scrapy.contracts.default.returnscontract': 2, }`
59	spider_loader_class	它定义了一个实现 `spiderloader` api 的类来加载蜘蛛。默认值: 'scrapy.spiderloader.spiderloader'
60	spider_middlewares	它是一本包含蜘蛛中间件的字典。默认值: {}
61	spider_middlewares_base	它是一个包含蜘蛛中间件的字典，默认情况下在 scrapy 中启用。默认值 − `{ 'scrapy.spidermiddlewares.httperror.httperrormiddleware': 50, }`
62	spider_modules	它是包含 scrapy 将寻找的蜘蛛的模块列表。默认值: []
63	stats_class	它是一个实现 `stats collector api` 以收集统计信息的类。默认值: 'scrapy.statscollectors.memorystatscollector'
64	stats_dump	此设置设置为 true 时，会将统计信息转储到日志中。默认值: true
65	statsmailer_rcpts	一旦蜘蛛完成抓取，scrapy 使用此设置发送统计数据。默认值: []
66	telnetconsole_enabled	它定义是否启用 `telnetconsole` 。默认值: true
67	telnetconsole_port	它为 `telnet` 控制台定义了一个端口。默认值: [6023, 6073]
68	templates_dir	它是一个包含模板的目录，可以在创建新项目时使用。默认值: templates directory inside scrapy module
69	urllength_limit	它定义了允许抓取的 url 的 url 长度的最大限制。默认值: 2083
70	user_agent	它定义了在抓取站点时要使用的用户代理。默认值: `"scrapy/version ( http://scrapy.org)"`

对于其他 scrapy 设置，请转到此链接

 scrapy 链接提取器

scrapy 其他设置 

ag捕鱼王app官网计算机编程教程

scrapy 设置——迹忆客-ag捕鱼王app官网

指定设置

填充设置

访问设置

内置设置参考

查看笔记

scrapy 设置——迹忆客-ag捕鱼王app官网

指定设置

填充设置

访问设置

内置设置参考

 查看笔记

查看笔记