开启辅助访问

笨鸟编程-零基础入门Pyhton教程 › 首页 ›Beautiful Soup 4 手册

Beautiful Soup 4 手册

按CSS搜索: 按照CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字class在Python中是保留字,使用class做参数会导致语法错误.从Beautiful Soup的4.1.1版本开始,可以通过class_参数搜索有指定CSS类名的tag:soup.find_all("a", ...; 2022-2-21 07:35

方法: 如果没有合适过滤器,那么还可以定义一个方法,方法只接受一个元素参数,如果这个方法返回True表示当前元素匹配并且被找到,如果不是则反回False下面方法校验了当前元素,如果包含class属性却不包含id属性,那么将返回True ...; 2022-2-21 07:34

搜索文档树: Beautiful Soup定义了很多搜索方法,这里着重介绍2个:find()和find_all().其它方法的参数和用法类似,请读者举一反三.再以“爱丽丝”文档作为例子:html_doc = """ htmlheadtitleThe Dormouse's story/title/head body ...; 2022-2-21 07:33

回退和前进: 看一下“爱丽丝” 文档:htmlheadtitleThe Dormouse's story/title/head p class="title"bThe Dormouse's story/b/p HTML解析器把这段字符串转换成一连串的事件: “打开html标签”,”打开一个head标签”,”打开一个ti ...; 2022-2-21 07:33

兄弟节点: 看一段简单的例子:sibling_soup = BeautifulSoup("abtext1/bctext2/c/b/a") print(sibling_soup.prettify()) # html # body # a # b # text1 # /b # c # text2 # /c # /a # /body # /html 因为b标签和c标签是同一层: ...; 2022-2-21 07:32

strings 和 stripped_strings: 如果tag中包含多个字符串,可以使用.strings来循环获取:for string in soup.strings: print(repr(string)) # u"The Dormouse's story" # u'\n\n' # u"The Dormouse's story" # u'\n\n' # u'Once upon a time there we ...; 2022-2-21 07:32

descendants: .contents和.children属性仅包含tag的直接子节点.例如,head标签只有一个直接子节点titlehead_tag.contents # 但是title标签也包含一个子节点:字符串 “The Dormouse’s story”,这种情况下字符串 “The Dormouse’s ...; 2022-2-21 07:32

tag的名字: 操作文档树最简单的方法就是告诉它你想获取的tag的name.如果想获取 head 标签,只要用soup.head:soup.head # headtitleThe Dormouse's story/title/head soup.title # titleThe Dormouse's story/title 这是个获取tag ...; 2022-2-21 07:31

注释及特殊字符串: Tag,NavigableString,BeautifulSoup几乎覆盖了html和xml中的所有内容,但是还有一些特殊对象.容易让人担心的内容是文档的注释部分:markup = "b!--Hey, buddy. Want to buy a used parser?--/b" soup = BeautifulSoup( ...; 2022-2-21 07:31

多值属性: HTML 4定义了一系列可以包含多个值的属性.在HTML5中移除了一些,却增加更多.最常见的多值的属性是 class (一个tag可以有多个CSS的class). 还有一些属性rel,rev,accept-charset,headers,accesskey. 在Beautiful Soup中 ...; 2022-2-21 07:30

对象的种类: Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:Tag,NavigableString,BeautifulSoup,Comment.TagTag对象与XML或HTML原生文档中的tag相同:soup = BeautifulSou ...; 2022-2-21 07:30

如何使用: 将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.from bs4 import BeautifulSoup soup = BeautifulSoup(open("index.html")) soup = BeautifulSoup("htmldata/ht ...; 2022-2-21 07:29

安装 Beautiful Soup: 如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装:$apt-getinstallPython-bs4Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过easy_install或pip来安装.包的名 ...; 2022-2-21 07:29

快速开始: 下面的一段HTML代码将作为例子被多次用到.这是爱丽丝梦游仙境的的一段内容(以后内容中简称为爱丽丝的文档):html_doc = """ htmlheadtitleThe Dormouse's story/title/head body p class="title"bThe Dormouse's stor ...; 2022-2-21 07:28

Beautiful Soup 4.4.0 文档: Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.这篇文档介绍了BeautifulSoup4 ...; 2022-2-21 07:28

12 / 2 页

相关分类

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2025-7-16 10:36 , Processed in 0.022212 second(s), 7 queries .

© 2001-2020

返回顶部