笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

Scrapy shell

2022-2-21 06:07| 发布者: 笨鸟自学网| 查看: 4476| 评论: 0

摘要: scrappyshell是一个交互式shell，您可以在其中快速调试 scrape 代码，而不必运行spider。它本来是用来测试数据提取代码的，但实际上您可以使用它来测试任何类型的代码，因为它也是一个常规的Python外壳。shell用于测 ...

从spiders调用shell来检查响应¶

有时，您希望检查在您的蜘蛛的某个点上正在处理的响应，如果只是检查您期望的响应是否到达那里的话。

这可以通过使用 scrapy.shell.inspect_response 功能。

下面是一个例子，说明如何从您的蜘蛛中命名它：

import scrapy


class MySpider(scrapy.Spider):
    name = "myspider"
    start_urls = [
        "http://example.com",
        "http://example.org",
        "http://example.net",
    ]

    def parse(self, response):
        # We want to inspect one specific response.
        if ".org" in response.url:
            from scrapy.shell import inspect_response
            inspect_response(response, self)

        # Rest of parsing code.

当你运行蜘蛛时，你会得到类似的东西：

2014-01-23 17:48:31-0400 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://example.com> (referer: None)
2014-01-23 17:48:31-0400 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://example.org> (referer: None)
[s] Available Scrapy objects:
[s]   crawler    <scrapy.crawler.Crawler object at 0x1e16b50>
...

>>> response.url
'http://example.org'

然后，可以检查提取代码是否正常工作：

>>> response.xpath('//h1[@class="fn"]')
[]

不，它不是。所以您可以在web浏览器中打开响应，看看它是否是您期望的响应：

>>> view(response)
True

最后，单击ctrl-d（或在Windows中单击ctrl-z）退出shell并继续爬网：

>>> ^D
2014-01-23 17:50:03-0400 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://example.net> (referer: None)
...

请注意，您不能使用 fetch 这里的快捷方式，因为报废的引擎被外壳挡住了。然而，当你离开外壳后，蜘蛛会继续在它停止的地方爬行，如上图所示。

1 23 / 3 页

收藏分享邀请

		自动登录	找回密码
密码			立即注册

Scrapy shell

从spiders调用shell来检查响应¶

相关分类