笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

Feed 导出

发布者: 笨鸟自学网

在实现scraper时,最经常需要的功能之一是能够正确地存储被抓取的数据,这通常意味着用被抓取的数据(通常称为“导出提要”)生成一个“导出文件”,供其他系统使用。

Scrapy在提要导出中提供了开箱即用的功能,它允许您使用多种序列化格式和存储后端来生成带有所刮取项的提要。

序列化格式

为了序列化 爬取 的数据,提要导出使用 Item exporters . 开箱即用支持这些格式:

  • JSON

  • 杰森线

  • CSV

  • XML

但是您也可以通过 FEED_EXPORTERS 设置。

JSON

  • 价值 format 关键在 FEEDS 设置: json

  • 出口商: JsonItemExporter

  • 见 this warning 如果您使用的是大型提要的JSON。

杰森线

  • 价值 format 关键在 FEEDS 设置: jsonlines

  • 出口商: JsonLinesItemExporter

CSV

  • 价值 format 关键在 FEEDS 设置: csv

  • 出口商: CsvItemExporter

  • 指定要导出的列及其顺序的步骤使用 FEED_EXPORT_FIELDS . 其他feed导出器也可以使用此选项,但对于csv很重要,因为与许多其他导出格式不同,csv使用固定头。

XML

  • 价值 format 关键在 FEEDS 设置: xml

  • 出口商: XmlItemExporter

泡菜

  • 价值 format 关键在 FEEDS 设置: pickle

  • 出口商: PickleItemExporter

元帅

  • 价值 format 关键在 FEEDS 设置: marshal

  • 出口商: MarshalItemExporter


上一篇:项目管道下一篇:请求和响应

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-7-27 12:50 , Processed in 0.114601 second(s), 17 queries .

© 2001-2020

返回顶部