Scrapy一目了然

2022-2-21 05:53| 发布者: 笨鸟自学网| 查看: 10389| 评论: 0

摘要: SCRAPPY(/ˈSkreɪpaɪ/)是一个应用程序框架，用于抓取网站和提取结构化数据，这些数据可用于广泛的有用应用程序，如数据挖掘、信息处理或历史存档。尽管Scrapy最初是为web scraping它还可以用于使用API提取数据（例 ...

还有什么？¶

你已经看到了如何使用Scrapy从网站中提取和存储项目，但这只是表面现象。Scrapy提供了许多强大的功能，使抓取变得简单和高效，例如：

内置支持 selecting and extracting 使用扩展的CSS选择器和XPath表达式从HTML/XML源中获取数据，并使用正则表达式提取助手方法。
interactive shell console （ipython-aware）用于尝试使用css和xpath表达式来获取数据，在编写或调试spider时非常有用。
内置支持 generating feed exports 以多种格式（json、csv、xml）存储在多个后端（ftp、s3、本地文件系统）
强大的编码支持和自动检测，用于处理外部、非标准和中断的编码声明。
Strong extensibility support ，允许您使用 signals 以及定义良好的API（中间件， extensions 和 pipelines ）
广泛的内置扩展和用于处理的中间产品：
- cookie和会话处理
- HTTP功能，如压缩、身份验证、缓存
- 用户代理欺骗
- robots.txt
- 爬行深度限制
- 更多
A Telnet console 用于挂接到运行在Scrapy进程中的Python控制台，以便内省和调试爬虫程序
还有其他的好东西，比如可重复使用的蜘蛛 Sitemaps 和XML/CSV源，这是 automatically downloading images （或任何其他媒体）与抓取的项目、缓存DNS解析程序等相关！

1 23 / 3 页

下一篇：安装指南

		自动登录	找回密码
密码			立即注册