笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

统计数据集合

Scrapy提供了一种方便的工具，可以以键/值的形式收集统计信息，其中值通常是计数器。该工具称为stats collector，可以通过 stats 的属性爬虫API ，如中的示例所示常用统计信息收集器使用下面部分。

但是，stats collector始终可用，因此无论stats集合是否启用，您都可以将其导入模块并使用其API（以增加或设置新的stat键）。如果它被禁用，API仍然可以工作，但它不会收集任何东西。这是为了简化StatsCollector的用法：在spider、scrappy扩展名或从中使用StatsCollector的任何代码中，收集统计信息的代码不应超过一行。

StatsCollector的另一个特性是，它在启用时非常高效，在禁用时非常高效（几乎不明显）。

stats收集器为每个打开的spider保留一个stats表，该表在spider打开时自动打开，在spider关闭时关闭。

常用统计信息收集器使用¶

通过访问Stats Collector stats 属性。以下是访问统计信息的扩展示例：

class ExtensionThatAccessStats:

    def __init__(self, stats):
        self.stats = stats

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler.stats)

设置统计值：

stats.set_value('hostname', socket.gethostname())

增量统计值：

stats.inc_value('custom_count')

仅当大于上一个值时设置stat值：：

stats.max_value('max_items_scraped', value)

仅当低于上一个时设置stat值：：

stats.min_value('min_free_memory_percent', value)

获取统计值：

>>> stats.get_value('custom_count')
1

获取所有统计信息：

>>> stats.get_stats()
{'custom_count': 1, 'start_time': datetime.datetime(2009, 7, 14, 21, 47, 28, 977139)} 

12 / 2 页下一页

Scrapy中文手册

Scrapy一目了然

安装指南

Scrapy 教程

命令行工具

蜘蛛

选择器

项目

项目加载器

Scrapy shell

项目管道

Feed 导出

请求和响应

链接提取器

设置

例外情况

统计数据集合

发送电子邮件

远程登录控制台

常见问题

调试spiders

蜘蛛合约

常用做法

宽爬行

使用浏览器的开发人员工具进行抓取

选择动态加载的内容

调试内存泄漏

下载和处理文件和图像

部署蜘蛛

AutoThrottle 扩展

标杆管理

作业：暂停和恢复爬行

协同程序

asyncio

体系结构概述

下载器中间件

蜘蛛中间件

扩展

核心API

信号

调度程序

条目导出器

		自动登录	找回密码
密码			立即注册