笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

Scrapy一目了然

发布者: 笨鸟自学网



刚刚发生了什么?

当你运行命令时 scrapy runspider quotes_spider.py 斯克里奇在里面寻找蜘蛛的定义,然后用它的爬行引擎运行。

通过向中定义的URL发出请求启动的爬网 start_urls 属性(在本例中,只有引号的URL humor 并调用默认回调方法 parse ,将响应对象作为参数传递。在 parse 回调,我们使用CSS选择器循环引用元素,生成一个包含提取的引号文本和作者的python dict,查找到下一页的链接,并使用它调度另一个请求。 parse 方法作为回调。

在这里,您注意到Scrapy的一个主要优点:请求是 scheduled and processed asynchronously . 这意味着Scrapy不需要等待请求完成和处理,它可以同时发送另一个请求或做其他事情。这也意味着,即使某些请求失败或在处理过程中发生错误,其他请求也可以继续进行。

虽然这使您能够非常快速地进行爬行(同时以容错的方式发送多个并发请求),但Scrapy还使您能够控制爬行的礼貌性。 a few settings . 您可以在每个请求之间设置下载延迟、限制每个域或每个IP的并发请求量,甚至 using an auto-throttling extension 它试图自动解决这些问题。

注解

这是使用 feed exports 要生成JSON文件,您可以轻松地更改导出格式(例如XML或CSV)或存储后端(FTP或 Amazon S3 例如)。你也可以写一个 item pipeline 将项目存储在数据库中。


下一篇:安装指南

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-7-27 12:43 , Processed in 0.018100 second(s), 17 queries .

© 2001-2020

返回顶部