笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

Scrapy一目了然

刚刚发生了什么？¶

当你运行命令时 scrapy runspider quotes_spider.py 斯克里奇在里面寻找蜘蛛的定义，然后用它的爬行引擎运行。

通过向中定义的URL发出请求启动的爬网 start_urls 属性（在本例中，只有引号的URL humor 并调用默认回调方法 parse ，将响应对象作为参数传递。在 parse 回调，我们使用CSS选择器循环引用元素，生成一个包含提取的引号文本和作者的python dict，查找到下一页的链接，并使用它调度另一个请求。 parse 方法作为回调。

在这里，您注意到Scrapy的一个主要优点：请求是 scheduled and processed asynchronously . 这意味着Scrapy不需要等待请求完成和处理，它可以同时发送另一个请求或做其他事情。这也意味着，即使某些请求失败或在处理过程中发生错误，其他请求也可以继续进行。

虽然这使您能够非常快速地进行爬行（同时以容错的方式发送多个并发请求），但Scrapy还使您能够控制爬行的礼貌性。 a few settings . 您可以在每个请求之间设置下载延迟、限制每个域或每个IP的并发请求量，甚至 using an auto-throttling extension 它试图自动解决这些问题。