核心API

2022-2-21 06:39| 发布者: 笨鸟自学网| 查看: 4816| 评论: 0

摘要: 本节记录了Scrapy核心API，它是为扩展和中间件的开发人员设计的。爬虫API¶Scrapy API的主要入口点是Crawler对象，通过from_crawler类方法。这个对象提供对所有Scrapy核心组件的访问，它是扩展访问它们并将其功能连 ...

本节记录了Scrapy核心API，它是为扩展和中间件的开发人员设计的。

爬虫API¶

Scrapy API的主要入口点是 Crawler 对象，通过 from_crawler 类方法。这个对象提供对所有Scrapy核心组件的访问，它是扩展访问它们并将其功能连接到Scrapy的唯一方法。

扩展管理器负责加载和跟踪已安装的扩展，并通过 EXTENSIONS 包含所有可用扩展名及其顺序的字典的设置，类似于 configure the downloader middlewares .

classscrapy.crawler.Crawler(spidercls, settings)¶

Crawler对象必须使用 scrapy.Spider 子类和一个 scrapy.settings.Settings 对象。

settings¶

此爬网程序的设置管理器。

这被扩展和中间软件用来访问这个爬虫程序的 Scrapy 设置。

有关碎屑设置的介绍，请参见设置 .

对于API见 Settings 班级。

signals¶

这个爬虫的信号管理器。

这被扩展和中间商用来将自己连接到零碎的功能中。

有关信号的介绍，请参见信号 .

对于API见 SignalManager 班级。

stats¶

这个爬虫的统计收集程序。

这用于从扩展和中间软件记录其行为的统计信息，或访问由其他扩展收集的统计信息。

有关stats集合的介绍，请参见统计数据集合 .

对于API见 StatsCollector 班级。

extensions¶

跟踪已启用扩展的扩展管理器。

大多数扩展不需要访问这个属性。

有关扩展名的介绍和scrapy上可用扩展名的列表，请参见扩展 .

engine¶

执行引擎，它协调调度程序、下载程序和spider之间的核心爬行逻辑。

有些扩展可能希望访问scrapy引擎，检查或修改下载程序和调度程序的行为，尽管这是一种高级用法，而且这个API还不稳定。

crawl(*args, **kwargs)¶

通过用给定的 args 和 kwargs 参数，同时设置运行中的执行引擎。

返回在爬网完成时激发的延迟。

		自动登录	找回密码
密码			立即注册