找回密码
 立即注册

下载器中间件

2022-2-21 06:36| 发布者: 笨鸟自学网| 查看: 10067| 评论: 0

摘要: 下载器中间件是Scrapy请求/响应处理的钩子框架。这是一个轻,低层次的系统,全球范围内改变斯拉皮的请求和响应。激活下载器中间件¶要激活下载器中间件组件,请将其添加到DOWNLOADER_MIDDLEWARES设置,这是一个dict ...


Protego解析器

基于 Protego :

  • 用Python实现

  • 符合 Google's Robots.txt Specification

  • 支持通配符匹配

  • 使用基于长度的规则

Scrapy默认使用这个解析器。

RobotFileParser

基于 RobotFileParser 

  • 是Python的内置 robots.txt 语法分析器

  • 符合 Martijn Koster's 1996 draft specification

  • 缺少对通配符匹配的支持

  • 不使用基于长度的规则

它比protey 8.0之前的版本更快地兼容。

要使用此分析器,请设置:

  • ROBOTSTXT_PARSER to scrapy.robotstxt.PythonRobotParser

Reppy解析器

基于 Reppy :

  • 周围有一个Python包装 Robots Exclusion Protocol Parser for C++

  • 符合 Martijn Koster's 1996 draft specification

  • 支持通配符匹配

  • 使用基于长度的规则

本机实现,提供比Protego更好的速度。

要使用此解析器:

  • 安装 Reppy 通过运行 pip install reppy

    警告

    Upstream issue #122 防止在Python 3.9+中快速使用。

  • 集合 ROBOTSTXT_PARSER 设置为 scrapy.robotstxt.ReppyRobotParser

RobotExclusionRuleSpaser

基于 Robotexclusionrulesparser :

  • 用Python实现

  • 符合 Martijn Koster's 1996 draft specification

  • 支持通配符匹配

  • 不使用基于长度的规则

要使用此解析器:

  • 安装 Robotexclusionrulesparser 通过运行 pip install robotexclusionrulesparser

  • 集合 ROBOTSTXT_PARSER 设置为 scrapy.robotstxt.RerpRobotParser


上一篇:体系结构概述下一篇:蜘蛛中间件

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2025-8-31 00:52 , Processed in 0.042751 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2017 Discuz Team. Template By 【未来科技】【 www.wekei.cn 】

返回顶部