开启辅助访问

笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

链接提取器

2022-2-21 06:13| 发布者: 笨鸟自学网| 查看: 3100| 评论: 0

摘要: 链接提取器是从响应中提取链接的对象。这个__init__方法LxmlLinkExtractor获取确定可以提取哪些链接的设置。LxmlLinkExtractor.extract_links返回匹配的列表Link对象来自Response对象。链接提取器用于CrawlSpider蜘 ...

链接¶

classscrapy.link.Link(url, text='', fragment='', nofollow=False)[源代码]¶

Link对象表示LinkExtractor提取的链接。

使用下面的锚定标记示例来说明参数：

<a href="https://example.com/nofollow.html#foo" rel="nofollow">Dont follow this one</a>

参数

url -- 在定位标记中链接到的绝对url。从样本来看，这是 https://example.com/nofollow.html .
text -- 锚定标记中的文本。从样本来看，这是 Dont follow this one .
fragment -- url中哈希符号后面的部分。从样本来看，这是 foo .
nofollow -- 中存在或不存在nofollow值的指示 rel 定位标记的属性。

12 / 2 页

收藏分享邀请

上一篇：请求和响应下一篇：设置

相关分类

Scrapy中文手册

Scrapy一目了然

安装指南

Scrapy 教程

命令行工具

蜘蛛

选择器

项目

项目加载器

Scrapy shell

项目管道

Feed 导出

请求和响应

链接提取器

设置

例外情况

登录

统计数据集合

发送电子邮件

远程登录控制台

常见问题

调试spiders

蜘蛛合约

常用做法

宽爬行

使用浏览器的开发人员工具进行抓取

选择动态加载的内容

调试内存泄漏

下载和处理文件和图像

部署蜘蛛

AutoThrottle 扩展

标杆管理

作业：暂停和恢复爬行

协同程序

asyncio

体系结构概述

下载器中间件

蜘蛛中间件

扩展

核心API

信号

调度程序

条目导出器

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2026-2-2 22:18 , Processed in 0.017651 second(s), 18 queries .

© 2001-2020

返回顶部