安装 pip install beautifulsoup4

from bs4 import BeautifulSoup

  1. # 第二个参数,使用什么解析器
  2. #html.parser内置,不需要安装第三方模块
  3. # soup=BeautifulSoup(res.text,'html.parser')
  4. # pip3 install lxml
  5. soup=BeautifulSoup(res.text,'lxml')

遍历文档树

  1. #遍历文档树:即直接通过标签名字选择,特点是选择速度快,但如果存在多个相同的标签则只返回第一个
  2. #1、用法
  3. #2、获取标签的名称
  4. #3、获取标签的属性
  5. #4、获取标签的内容
  6. #5、嵌套选择
  7. #6、子节点、子孙节点
  8. #7、父节点、祖先节点
  9. #8、兄弟节点

(只需要掌握:获取标签的属性、内容,嵌套选择)

  1. html_doc = """
  2. <html><head><title>The Dormouse's story</title></head>
  3. <body>
  4. <p id="my p" class="title"><b id="bbb" class="boldest">The Dormouse's story</b></p>
  5. <p class="story">Once upon a time there were three little sisters; and their names were
  6. <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
  7. <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
  8. <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
  9. and they lived at the bottom of a well.</p>
  10. <p class="story">...</p>
  11. """
  12. #1、用法
  13. from bs4 import BeautifulSoup
  14. soup=BeautifulSoup(html_doc,'lxml')
  15. # soup=BeautifulSoup(open('a.html'),'lxml')
  16. print(soup.p) #存在多个相同的标签则只返回第一个
  17. print(soup.a) #存在多个相同的标签则只返回第一个
  18. #2、获取标签的名称
  19. print(soup.p.name)
  20. #3、获取标签的属性
  21. print(soup.p.attrs)
  22. #4、获取标签的内容
  23. print(soup.p.string) # p下的文本只有一个时,取到,否则为None
  24. print(soup.p.strings) #拿到一个生成器对象, 取到p下所有的文本内容
  25. print(soup.p.text) #取到p下所有的文本内容
  26. for line in soup.stripped_strings: #去掉空白
  27. print(line)
  28. '''
  29. 如果tag包含了多个子节点,tag就无法确定 .string 方法应该调用哪个子节点的内容, .string 的输出结果是 None,如果只有一个子节点那么就输出该子节点的文本,比如下面的这种结构,soup.p.string 返回为None,但soup.p.strings就可以找到所有文本
  30. <p id='list-1'>
  31. 哈哈哈哈
  32. <a class='sss'>
  33. <span>
  34. <h1>aaaa</h1>
  35. </span>
  36. </a>
  37. <b>bbbbb</b>
  38. </p>
  39. '''
  40. #5、嵌套选择
  41. print(soup.head.title.string)
  42. print(soup.body.a.string)
  43. #6、子节点、子孙节点
  44. print(soup.p.contents) #p下所有子节点
  45. print(soup.p.children) #得到一个迭代器,包含p下所有子节点
  46. for i,child in enumerate(soup.p.children):
  47. print(i,child)
  48. print(soup.p.descendants) #获取子孙节点,p下所有的标签都会选择出来
  49. for i,child in enumerate(soup.p.descendants):
  50. print(i,child)
  51. #7、父节点、祖先节点
  52. print(soup.a.parent) #获取a标签的父节点
  53. print(soup.a.parents) #找到a标签所有的祖先节点,父亲的父亲,父亲的父亲的父亲...
  54. #8、兄弟节点
  55. print('=====>')
  56. print(soup.a.next_sibling) #下一个兄弟
  57. print(soup.a.previous_sibling) #上一个兄弟
  58. print(list(soup.a.next_siblings)) #下面的兄弟们=>生成器对象
  59. print(soup.a.previous_siblings) #上面的兄弟们=>生成器对象

搜索文档树

五种过滤器:字符串、正则、列表、True、方法

  1. #1.1、字符串:即标签名
  2. print(soup.find_all('b'))
  3. #1.2、正则表达式
  4. import re
  5. print(soup.find_all(re.compile('^b'))) #找出b开头的标签,结果有body和b标签
  6. #1.3、列表:如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.下面代码找到文档中所有<a>标签和<b>标签:
  7. print(soup.find_all(['a','b']))
  8. #1.4、True:可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点
  9. print(soup.find_all(True))
  10. for tag in soup.find_all(True):
  11. print(tag.name)
  12. #1.5、方法:如果没有合适过滤器,那么还可以定义一个方法,方法只接受一个元素参数 ,如果这个方法返回 True 表示当前元素匹配并且被找到,如果不是则反回 False
  13. def has_class_but_no_id(tag):
  14. return tag.has_attr('class') and not tag.has_attr('id')
  15. print(soup.find_all(has_class_but_no_id))

limit和recursive

  1. limit参数:如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果
  2. print(soup.find_all('a',limit=2))
  3. recursive:调用tag find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False .
  4. print(soup.html.find_all('a'))
  5. print(soup.html.find_all('a',recursive=False))