找回密码
 立即注册

下载器中间件

2022-2-21 06:36| 发布者: 笨鸟自学网| 查看: 10067| 评论: 0

摘要: 下载器中间件是Scrapy请求/响应处理的钩子框架。这是一个轻,低层次的系统,全球范围内改变斯拉皮的请求和响应。激活下载器中间件¶要激活下载器中间件组件,请将其添加到DOWNLOADER_MIDDLEWARES设置,这是一个dict ...


编写自己的存储后端

您可以通过创建定义下面描述的方法的python类来实现缓存存储后端。

classscrapy.extensions.httpcache.CacheStorage
open_spider(spider)

在打开蜘蛛进行爬行后调用此方法。它处理 open_spider 信号。

参数

spider (Spider object) -- 已经打开的蜘蛛

close_spider(spider)

关闭spider后调用此方法。它处理 close_spider 信号。

参数

spider (Spider object) -- 已关闭的蜘蛛

retrieve_response(spiderrequest)

如果缓存中存在,则返回响应,或者 None 否则。

参数
  • spider (Spider object) -- 生成请求的蜘蛛

  • request (Request object) -- 查找的缓存响应的请求

store_response(spiderrequestresponse)

将给定的响应存储在缓存中。

参数
  • spider (Spider object) -- 响应所针对的蜘蛛

  • request (Request object) -- 蜘蛛生成的相应请求

  • response (Response object) -- 存储在缓存中的响应

要使用存储后端,请设置:

  • HTTPCACHE_STORAGE 到自定义存储类的python导入路径。

httpcache中间件设置

这个 HttpCacheMiddleware 可通过以下设置进行配置:

HTTPCACHE_ENABLED

违约: False

是否启用HTTP缓存。

HTTPCACHE_EXPIRATION_SECS

违约: 0

缓存请求的过期时间(秒)。

超过此时间的缓存请求将被重新下载。如果为零,则缓存请求将永不过期。

HTTPCACHE_DIR

违约: 'httpcache'

用于存储(低级)HTTP缓存的目录。如果为空,则将禁用HTTP缓存。如果给定了相对路径,则相对于项目数据目录。有关详细信息,请参阅: 报废项目的默认结构 .


上一篇:体系结构概述下一篇:蜘蛛中间件

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2025-8-31 00:52 , Processed in 0.043453 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2017 Discuz Team. Template By 【未来科技】【 www.wekei.cn 】

返回顶部