找回密码
 立即注册

链接提取器

2022-2-21 06:13| 发布者: 笨鸟自学网| 查看: 2559| 评论: 0

摘要: 链接提取器是从响应中提取链接的对象。这个__init__方法LxmlLinkExtractor获取确定可以提取哪些链接的设置。LxmlLinkExtractor.extract_links返回匹配的列表Link对象来自Response对象。链接提取器用于CrawlSpider蜘 ...


链接

Link对象表示LinkExtractor提取的链接。

使用下面的锚定标记示例来说明参数:

<a href="https://example.com/nofollow.html#foo" rel="nofollow">Dont follow this one</a>
参数
  • url -- 在定位标记中链接到的绝对url。从样本来看,这是 https://example.com/nofollow.html .

  • text -- 锚定标记中的文本。从样本来看,这是 Dont follow this one .

  • fragment -- url中哈希符号后面的部分。从样本来看,这是 foo .

  • nofollow -- 中存在或不存在nofollow值的指示 rel 定位标记的属性。

12
上一篇:请求和响应下一篇:设置

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2025-8-31 09:57 , Processed in 0.054662 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2017 Discuz Team. Template By 【未来科技】【 www.wekei.cn 】

返回顶部