找回密码
 立即注册

核心API

2022-2-21 06:39| 发布者: 笨鸟自学网| 查看: 4824| 评论: 0

摘要: 本节记录了Scrapy核心API,它是为扩展和中间件的开发人员设计的。爬虫API¶Scrapy API的主要入口点是Crawler对象,通过from_crawler类方法。这个对象提供对所有Scrapy核心组件的访问,它是扩展访问它们并将其功能连 ...


setmodule(modulepriority='project')[源代码]

存储具有给定优先级的模块的设置。

这是一个调用 set() 对于每个全局声明的大写变量 module 提供的 priority .

参数
  • module (types.ModuleType or str) -- 模块或模块路径

  • priority (str or int) -- 设置的优先级。应该是 SETTINGS_PRIORITIES 或整数

update(valuespriority='project')[源代码]

存储具有给定优先级的键/值对。

这是一个调用 set() 每一项 values 提供的 priority .

如果 values 是一个字符串,它被假定为JSON编码并被解析为一个dict json.loads() 第一。如果是 BaseSettings 例如,每个键的优先级将被使用,并且 priority 参数被忽略。这允许使用单个命令插入/更新具有不同优先级的设置。

参数
  • values (dict or string or BaseSettings) -- 设置名称和值

  • priority (str or int) -- 设置的优先级。应该是 SETTINGS_PRIORITIES 或整数

SpiderLoader API

classscrapy.spiderloader.SpiderLoader[源代码]

这个类负责检索和处理整个项目中定义的蜘蛛类。

通过在 SPIDER_LOADER_CLASS 项目设置。他们必须全面实施 scrapy.interfaces.ISpiderLoader 保证无误执行的接口。

from_settings(settings)[源代码]

Scrapy使用该类方法创建该类的实例。它使用当前的项目设置调用,并加载在 SPIDER_MODULES 设置。

参数

settings (Settings instance) -- 项目设置

load(spider_name)[源代码]

获取具有给定名称的蜘蛛类。它将在先前加载的spider中查找具有名称的spider类 spider_name 如果找不到,将引发keyerror。

参数

spider_name (str) -- 蜘蛛类名

list()[源代码]

获取项目中可用蜘蛛的名称。

find_by_request(request)[源代码]

列出能够处理给定请求的蜘蛛的名称。将尝试将请求的URL与蜘蛛的域相匹配。

参数

request (Request instance) -- 查询请求


上一篇:扩展下一篇:信号

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2025-8-31 00:54 , Processed in 0.014754 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2017 Discuz Team. Template By 【未来科技】【 www.wekei.cn 】

返回顶部