找回密码
 立即注册

设置

2022-2-21 06:16| 发布者: 笨鸟自学网| 查看: 13993| 评论: 0

摘要: Scrapy设置允许您自定义所有Scrapy组件的行为,包括核心、扩展、管道和spider本身。设置的基础结构提供了键值映射的全局命名空间,代码可以使用该命名空间从中提取配置值。可以通过下面描述的不同机制填充设置。这些 ...


URLLENGTH_LIMIT

违约: 2083

经营范围: spidermiddlewares.urllength

允许爬网的URL的最大URL长度。

在URL长度不断增加的情况下,此设置可以作为停止条件,例如,这可能是由目标服务器或您的代码中的编程错误引起的。另请参阅 REDIRECT_MAX_TIMES 和 DEPTH_LIMIT 

使用 0 以允许任何长度的URL。

默认值是从 Microsoft Internet Explorer maximum URL length ,即使此设置存在的原因不同。

USER_AGENT

违约: "Scrapy/VERSION (+https://scrapy.org)"

爬网时使用的默认User-Agent,除非被覆盖。此用户代理也由使用 RobotsTxtMiddleware 如果 ROBOTSTXT_USER_AGENT 设置为 None 并且没有为请求指定重写的User-Agent标头。

上一篇:链接提取器下一篇:例外情况

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2025-8-31 10:00 , Processed in 0.015792 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2017 Discuz Team. Template By 【未来科技】【 www.wekei.cn 】

返回顶部