lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高
XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索
XPath的选择功能十分强大,它提供了非常简明的路径选择表达式,另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有我们想要定位的节点,都可以用XPath来选择
image.png

好文链接:http://www.itheima.com/news/20210621/134110.html

lxml库的一些相关类如下:

  1. Element类: 可以理解为xml的节点
  2. ElementTree类:可以理解为一个完整的xml文档数
  3. Elementpath类:可以理解为xpath,用于搜索和定位节点

Element类是XML处理的核心类,可以直观地理解为XML的节点,大部分XML节点的处理都是围绕着Element类进行的。要想创建一个节点对象,则可以通过构造函数直接创建。例如: