笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册
笨鸟编程-零基础入门Pyhton教程 首页 Beautiful Soup 4 手册
订阅

Beautiful Soup 4 手册

生成器
将下列生成器按照PEP8标准重新命名,并转换成对象的属性:childGenerator()-childrennextGenerator()-next_elementsnextSiblingGenerator()-next_siblingspreviousGenerator()-previous_elementspreviousSiblingGenera ...
2022-2-21 07:41
方法名的变化
renderContents-encode_contentsreplaceWith-replace_withreplaceWithChildren-unwrapfindAll-find_allfindAllNext-find_all_nextfindAllPrevious-find_all_previousfindNext-find_nextfindNextSibling-find_next_si ...
2022-2-21 07:41
常见问题
代码诊断如果想知道Beautiful Soup到底怎样处理一份文档,可以将文档传入diagnose()方法(Beautiful Soup 4.2.0中新增),Beautiful Soup会输出一份报告,说明不同的解析器会怎样处理这段文档,并标出当前的解析过程会使用 ...
2022-2-21 07:40
复制Beautiful Soup对象
copy.copy()方法可以复制任意Tag或NavigableString对象import copy p_copy = copy.copy(soup.p) print p_copy # pI want bpizza/b and more bpizza/b!/p 复制后的对象跟与对象是相等的, 但指向不同的内存地址print s ...
2022-2-21 07:40
比较对象是否相同
两个NavigableString或Tag对象具有相同的HTML或XML结构时, Beautiful Soup就判断这两个对象相同. 这个例子中, 2个 b 标签在 BS 中是相同的, 尽管他们在文档树的不同位置, 但是具有相同的表象: “bpizza/b”markup = ...
2022-2-21 07:39
矛盾的编码
有时文档的大部分都是用UTF-8,但同时还包含了Windows-1252编码的字符,就像微软的智能引号一样. 一些包含多个信息的来源网站容易出现这种情况.UnicodeDammit.detwingle()方法可以把这类文档转换成纯UTF-8编码格式,看 ...
2022-2-21 07:39
智能引号
使用Unicode时,Beautiful Soup还会智能的把引号转换成HTML或XML中的特殊字符:markup = b"pI just \x93love\x94 Microsoft Word\x92s smart quotes/p" UnicodeDammit(markup, , smart_quotes_to="html").unicode_mark ...
2022-2-21 07:39
编码
任何HTML或XML文档都有自己的编码方式,比如ASCII 或 UTF-8,但是使用Beautiful Soup解析后,文档都被转换成了Unicode:markup = "h1Sacr\xc3\xa9 bleu!/h1" soup = BeautifulSoup(markup) soup.h1 # h1Sacré bleu!/h1 ...
2022-2-21 07:38
指定文档解析器
如果仅是想要解析HTML文档,只要用文档创建BeautifulSoup对象就可以了.Beautiful Soup会自动选择一个解析器来解析文档.但是还可以通过参数指定使用那种解析器来解析当前文档.BeautifulSoup第一个参数应该是要被解析的 ...
2022-2-21 07:37
输出
格式化输出prettify()方法将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行markup = 'a href="http://example.com/"I linked to iexample.com/i/a' soup = BeautifulSoup(markup) sou ...
2022-2-21 07:37
wrap()
PageElement.wrap()方法可以对指定的tag元素进行包装,并返回包装后的结果:soup = BeautifulSoup("pI wish I was bold./p") soup.p.string.wrap(soup.new_tag("b")) # bI wish I was bold./b soup.p.wrap(soup.new_ta ...
2022-2-21 07:36
insert()
Tag.insert()方法与Tag.append()方法类似,区别是不会把新元素添加到父节点.contents属性的最后,而是把元素插入到指定的位置.与Python列表总的.insert()方法的用法下同:markup = 'a href="http://example.com/"I link ...
2022-2-21 07:36
修改文档树
Beautiful Soup的强项是文档树的搜索,但同时也可以方便的修改文档树修改tag的名称和属性在Attributes的章节中已经介绍过这个功能,但是再看一遍也无妨. 重命名一个tag,改变属性的值,添加或删除属性:soup = BeautifulS ...
2022-2-21 07:36
CSS选择器
Beautiful Soup支持大部分的CSS选择器http://www.w3.org/TR/CSS2/selector.html, 在Tag或BeautifulSoup对象的.select()方法中传入字符串参数, 即可使用CSS选择器的语法找到tag:soup.select("title") # soup.select( ...
2022-2-21 07:36
find()
find(name,attrs,recursive,string,**kwargs)find_all()方法将返回文档中符合条件的所有tag,尽管有时候我们只想得到一个结果.比如文档中只有一个body标签,那么使用find_all()方法来查找body标签就不太合适, 使用find ...
2022-2-21 07:35
12下一页

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-5-20 05:12 , Processed in 0.075287 second(s), 7 queries .

© 2001-2020

返回顶部