安装 pip install beautifulsoup4
from bs4 import BeautifulSoup
# 第二个参数,使用什么解析器#html.parser内置,不需要安装第三方模块# soup=BeautifulSoup(res.text,'html.parser')# pip3 install lxmlsoup=BeautifulSoup(res.text,'lxml')
遍历文档树
#遍历文档树:即直接通过标签名字选择,特点是选择速度快,但如果存在多个相同的标签则只返回第一个#1、用法#2、获取标签的名称#3、获取标签的属性#4、获取标签的内容#5、嵌套选择#6、子节点、子孙节点#7、父节点、祖先节点#8、兄弟节点
(只需要掌握:获取标签的属性、内容,嵌套选择)
html_doc = """<html><head><title>The Dormouse's story</title></head><body><p id="my p" class="title"><b id="bbb" class="boldest">The Dormouse's story</b></p><p class="story">Once upon a time there were three little sisters; and their names were<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;and they lived at the bottom of a well.</p><p class="story">...</p>"""#1、用法from bs4 import BeautifulSoupsoup=BeautifulSoup(html_doc,'lxml')# soup=BeautifulSoup(open('a.html'),'lxml')print(soup.p) #存在多个相同的标签则只返回第一个print(soup.a) #存在多个相同的标签则只返回第一个#2、获取标签的名称print(soup.p.name)#3、获取标签的属性print(soup.p.attrs)#4、获取标签的内容print(soup.p.string) # p下的文本只有一个时,取到,否则为Noneprint(soup.p.strings) #拿到一个生成器对象, 取到p下所有的文本内容print(soup.p.text) #取到p下所有的文本内容for line in soup.stripped_strings: #去掉空白print(line)'''如果tag包含了多个子节点,tag就无法确定 .string 方法应该调用哪个子节点的内容, .string 的输出结果是 None,如果只有一个子节点那么就输出该子节点的文本,比如下面的这种结构,soup.p.string 返回为None,但soup.p.strings就可以找到所有文本<p id='list-1'>哈哈哈哈<a class='sss'><span><h1>aaaa</h1></span></a><b>bbbbb</b></p>'''#5、嵌套选择print(soup.head.title.string)print(soup.body.a.string)#6、子节点、子孙节点print(soup.p.contents) #p下所有子节点print(soup.p.children) #得到一个迭代器,包含p下所有子节点for i,child in enumerate(soup.p.children):print(i,child)print(soup.p.descendants) #获取子孙节点,p下所有的标签都会选择出来for i,child in enumerate(soup.p.descendants):print(i,child)#7、父节点、祖先节点print(soup.a.parent) #获取a标签的父节点print(soup.a.parents) #找到a标签所有的祖先节点,父亲的父亲,父亲的父亲的父亲...#8、兄弟节点print('=====>')print(soup.a.next_sibling) #下一个兄弟print(soup.a.previous_sibling) #上一个兄弟print(list(soup.a.next_siblings)) #下面的兄弟们=>生成器对象print(soup.a.previous_siblings) #上面的兄弟们=>生成器对象
搜索文档树
五种过滤器:字符串、正则、列表、True、方法
#1.1、字符串:即标签名print(soup.find_all('b'))#1.2、正则表达式import reprint(soup.find_all(re.compile('^b'))) #找出b开头的标签,结果有body和b标签#1.3、列表:如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.下面代码找到文档中所有<a>标签和<b>标签:print(soup.find_all(['a','b']))#1.4、True:可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点print(soup.find_all(True))for tag in soup.find_all(True):print(tag.name)#1.5、方法:如果没有合适过滤器,那么还可以定义一个方法,方法只接受一个元素参数 ,如果这个方法返回 True 表示当前元素匹配并且被找到,如果不是则反回 Falsedef has_class_but_no_id(tag):return tag.has_attr('class') and not tag.has_attr('id')print(soup.find_all(has_class_but_no_id))
limit和recursive
limit参数:如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果print(soup.find_all('a',limit=2))recursive:调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False .print(soup.html.find_all('a'))print(soup.html.find_all('a',recursive=False))
