笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册
笨鸟编程-零基础入门Pyhton教程 首页 Beautiful Soup 4 手册
订阅

Beautiful Soup 4 手册

按CSS搜索
按照CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字class在Python中是保留字,使用class做参数会导致语法错误.从Beautiful Soup的4.1.1版本开始,可以通过class_参数搜索有指定CSS类名的tag:soup.find_all("a", ...
2022-2-21 07:35
方法
如果没有合适过滤器,那么还可以定义一个方法,方法只接受一个元素参数,如果这个方法返回True表示当前元素匹配并且被找到,如果不是则反回False下面方法校验了当前元素,如果包含class属性却不包含id属性,那么将返回True ...
2022-2-21 07:34
搜索文档树
Beautiful Soup定义了很多搜索方法,这里着重介绍2个:find()和find_all().其它方法的参数和用法类似,请读者举一反三.再以“爱丽丝”文档作为例子:html_doc = """ htmlheadtitleThe Dormouse's story/title/head body ...
2022-2-21 07:33
回退和前进
看一下“爱丽丝” 文档:htmlheadtitleThe Dormouse's story/title/head p class="title"bThe Dormouse's story/b/p HTML解析器把这段字符串转换成一连串的事件: “打开html标签”,”打开一个head标签”,”打开一个ti ...
2022-2-21 07:33
兄弟节点
看一段简单的例子:sibling_soup = BeautifulSoup("abtext1/bctext2/c/b/a") print(sibling_soup.prettify()) # html # body # a # b # text1 # /b # c # text2 # /c # /a # /body # /html 因为b标签和c标签是同一层: ...
2022-2-21 07:32
strings 和 stripped_strings
如果tag中包含多个字符串,可以使用.strings来循环获取:for string in soup.strings: print(repr(string)) # u"The Dormouse's story" # u'\n\n' # u"The Dormouse's story" # u'\n\n' # u'Once upon a time there we ...
2022-2-21 07:32
descendants
.contents和.children属性仅包含tag的直接子节点.例如,head标签只有一个直接子节点titlehead_tag.contents # 但是title标签也包含一个子节点:字符串 “The Dormouse’s story”,这种情况下字符串 “The Dormouse’s ...
2022-2-21 07:32
tag的名字
操作文档树最简单的方法就是告诉它你想获取的tag的name.如果想获取 head 标签,只要用soup.head:soup.head # headtitleThe Dormouse's story/title/head soup.title # titleThe Dormouse's story/title 这是个获取tag ...
2022-2-21 07:31
注释及特殊字符串
Tag,NavigableString,BeautifulSoup几乎覆盖了html和xml中的所有内容,但是还有一些特殊对象.容易让人担心的内容是文档的注释部分:markup = "b!--Hey, buddy. Want to buy a used parser?--/b" soup = BeautifulSoup( ...
2022-2-21 07:31
多值属性
HTML 4定义了一系列可以包含多个值的属性.在HTML5中移除了一些,却增加更多.最常见的多值的属性是 class (一个tag可以有多个CSS的class). 还有一些属性rel,rev,accept-charset,headers,accesskey. 在Beautiful Soup中 ...
2022-2-21 07:30
对象的种类
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:Tag,NavigableString,BeautifulSoup,Comment.TagTag对象与XML或HTML原生文档中的tag相同:soup = BeautifulSou ...
2022-2-21 07:30
如何使用
将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.from bs4 import BeautifulSoup soup = BeautifulSoup(open("index.html")) soup = BeautifulSoup("htmldata/ht ...
2022-2-21 07:29
安装 Beautiful Soup
如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装:$apt-getinstallPython-bs4Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过easy_install或pip来安装.包的名 ...
2022-2-21 07:29
快速开始
下面的一段HTML代码将作为例子被多次用到.这是爱丽丝梦游仙境的的一段内容(以后内容中简称为爱丽丝的文档):html_doc = """ htmlheadtitleThe Dormouse's story/title/head body p class="title"bThe Dormouse's stor ...
2022-2-21 07:28
Beautiful Soup 4.4.0 文档
Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.这篇文档介绍了BeautifulSoup4 ...
2022-2-21 07:28
12

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2025-5-3 16:34 , Processed in 0.025615 second(s), 7 queries .

© 2001-2020

返回顶部