核心API

2022-2-21 06:39| 发布者: 笨鸟自学网| 查看: 6744| 评论: 0

摘要: 本节记录了Scrapy核心API，它是为扩展和中间件的开发人员设计的。爬虫API¶Scrapy API的主要入口点是Crawler对象，通过from_crawler类方法。这个对象提供对所有Scrapy核心组件的访问，它是扩展访问它们并将其功能连 ...

setmodule(module, priority='project')[源代码]¶

存储具有给定优先级的模块的设置。

这是一个调用 set() 对于每个全局声明的大写变量 module 提供的 priority .

参数

update(values, priority='project')[源代码]¶

存储具有给定优先级的键/值对。

这是一个调用 set() 每一项 values 提供的 priority .

如果 values 是一个字符串，它被假定为JSON编码并被解析为一个dict json.loads() 第一。如果是 BaseSettings 例如，每个键的优先级将被使用，并且 priority 参数被忽略。这允许使用单个命令插入/更新具有不同优先级的设置。

参数

SpiderLoader API¶

classscrapy.spiderloader.SpiderLoader[源代码]¶

这个类负责检索和处理整个项目中定义的蜘蛛类。

通过在 SPIDER_LOADER_CLASS 项目设置。他们必须全面实施 scrapy.interfaces.ISpiderLoader 保证无误执行的接口。

from_settings(settings)[源代码]¶

Scrapy使用该类方法创建该类的实例。它使用当前的项目设置调用，并加载在 SPIDER_MODULES 设置。

load(spider_name)[源代码]¶

获取具有给定名称的蜘蛛类。它将在先前加载的spider中查找具有名称的spider类 spider_name 如果找不到，将引发keyerror。

find_by_request(request)[源代码]¶

列出能够处理给定请求的蜘蛛的名称。将尝试将请求的URL与蜘蛛的域相匹配。

		自动登录	找回密码
密码			立即注册