开启辅助访问

笨鸟编程-零基础入门Pyhton教程 › 首页 ›Beautiful Soup 4 手册

Beautiful Soup 4 手册

生成器: 将下列生成器按照PEP8标准重新命名,并转换成对象的属性:childGenerator()-childrennextGenerator()-next_elementsnextSiblingGenerator()-next_siblingspreviousGenerator()-previous_elementspreviousSiblingGenera ...; 2022-2-21 07:41

方法名的变化: renderContents-encode_contentsreplaceWith-replace_withreplaceWithChildren-unwrapfindAll-find_allfindAllNext-find_all_nextfindAllPrevious-find_all_previousfindNext-find_nextfindNextSibling-find_next_si ...; 2022-2-21 07:41

常见问题: 代码诊断如果想知道Beautiful Soup到底怎样处理一份文档,可以将文档传入diagnose()方法(Beautiful Soup 4.2.0中新增),Beautiful Soup会输出一份报告,说明不同的解析器会怎样处理这段文档,并标出当前的解析过程会使用 ...; 2022-2-21 07:40

复制Beautiful Soup对象: copy.copy()方法可以复制任意Tag或NavigableString对象import copy p_copy = copy.copy(soup.p) print p_copy # pI want bpizza/b and more bpizza/b!/p 复制后的对象跟与对象是相等的, 但指向不同的内存地址print s ...; 2022-2-21 07:40

比较对象是否相同: 两个NavigableString或Tag对象具有相同的HTML或XML结构时, Beautiful Soup就判断这两个对象相同. 这个例子中, 2个 b 标签在 BS 中是相同的, 尽管他们在文档树的不同位置, 但是具有相同的表象: “bpizza/b”markup = ...; 2022-2-21 07:39

矛盾的编码: 有时文档的大部分都是用UTF-8,但同时还包含了Windows-1252编码的字符,就像微软的智能引号一样. 一些包含多个信息的来源网站容易出现这种情况.UnicodeDammit.detwingle()方法可以把这类文档转换成纯UTF-8编码格式,看 ...; 2022-2-21 07:39

智能引号: 使用Unicode时,Beautiful Soup还会智能的把引号转换成HTML或XML中的特殊字符:markup = b"pI just \x93love\x94 Microsoft Word\x92s smart quotes/p" UnicodeDammit(markup, , smart_quotes_to="html").unicode_mark ...; 2022-2-21 07:39

编码: 任何HTML或XML文档都有自己的编码方式,比如ASCII 或 UTF-8,但是使用Beautiful Soup解析后,文档都被转换成了Unicode:markup = "h1Sacr\xc3\xa9 bleu!/h1" soup = BeautifulSoup(markup) soup.h1 # h1Sacré bleu!/h1 ...; 2022-2-21 07:38

指定文档解析器: 如果仅是想要解析HTML文档,只要用文档创建BeautifulSoup对象就可以了.Beautiful Soup会自动选择一个解析器来解析文档.但是还可以通过参数指定使用那种解析器来解析当前文档.BeautifulSoup第一个参数应该是要被解析的 ...; 2022-2-21 07:37

输出: 格式化输出prettify()方法将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行markup = 'a href="http://example.com/"I linked to iexample.com/i/a' soup = BeautifulSoup(markup) sou ...; 2022-2-21 07:37

wrap(): PageElement.wrap()方法可以对指定的tag元素进行包装,并返回包装后的结果:soup = BeautifulSoup("pI wish I was bold./p") soup.p.string.wrap(soup.new_tag("b")) # bI wish I was bold./b soup.p.wrap(soup.new_ta ...; 2022-2-21 07:36

insert(): Tag.insert()方法与Tag.append()方法类似,区别是不会把新元素添加到父节点.contents属性的最后,而是把元素插入到指定的位置.与Python列表总的.insert()方法的用法下同:markup = 'a href="http://example.com/"I link ...; 2022-2-21 07:36

修改文档树: Beautiful Soup的强项是文档树的搜索,但同时也可以方便的修改文档树修改tag的名称和属性在Attributes的章节中已经介绍过这个功能,但是再看一遍也无妨. 重命名一个tag,改变属性的值,添加或删除属性:soup = BeautifulS ...; 2022-2-21 07:36

CSS选择器: Beautiful Soup支持大部分的CSS选择器http://www.w3.org/TR/CSS2/selector.html, 在Tag或BeautifulSoup对象的.select()方法中传入字符串参数, 即可使用CSS选择器的语法找到tag:soup.select("title") # soup.select( ...; 2022-2-21 07:36

find(): find(name,attrs,recursive,string,**kwargs)find_all()方法将返回文档中符合条件的所有tag,尽管有时候我们只想得到一个结果.比如文档中只有一个body标签,那么使用find_all()方法来查找body标签就不太合适, 使用find ...; 2022-2-21 07:35

12 / 2 页下一页

相关分类

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2025-7-16 04:27 , Processed in 0.016409 second(s), 7 queries .

© 2001-2020

返回顶部