Scrapy 默认值针对爬行特定站点进行了优化。这些站点通常由一个残缺的蜘蛛来处理,尽管这不是必需的或必需的(例如,有一些普通的蜘蛛来处理任何向它们抛出的给定站点)。 除了这种“集中的爬行”之外,还有另一种常见的爬行类型,它覆盖了大量(可能是无限的)域,并且只受时间或其他任意约束的限制,而不是在域被爬行到完成或没有更多的请求执行时停止。这些被称为“宽爬虫”,是搜索引擎使用的典型爬虫。 这些是一些常见的特性,通常在广泛的爬行中发现:
如上所述,Scrapy的默认设置是针对重点爬行而不是广泛爬行而优化的。然而,由于其异步体系结构,Scrapy非常适合执行快速的广泛爬行。本页总结了在使用Scrapy进行宽范围爬行时需要记住的一些事情,以及为实现高效的宽范围爬行而调整Scrapy设置的具体建议。 使用权利 |
Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )
GMT+8, 2024-11-9 21:33 , Processed in 0.077207 second(s), 17 queries .