lxml这个python库用来解析xml和HTML的工具
支持Xpath语法

  • //的用途
    • //a 表示html里面的所有标签a
    • //a/@href 获取所有a的href
  • text()
    • //a/text() 获取所有 a下的文本
  • xpath 查找特定的节点
    • //a[1] 选择第一个节点
    • //a[last()] 选择最后一个
    • //a[position()<4] 选择前三个 ```python

      导入

      from lxml import etree

xml = open(‘{}’.format(path)).read() sel = etree.HTML(xml) width = int(sel.xpath(‘//size/width/text()’)[0]) height = int(sel.xpath(‘//size/height/text()’)[0]) xmin = int(sel.xpath(‘//bndbox/xmin/text()’)[0]) xmax = int(sel.xpath(‘//bndbox/xmax/text()’)[0]) ymin= int(sel.xpath(‘//bndbox/ymin/text()’)[0]) ymax= int(sel.xpath(‘//bndbox/ymax/text()’)[0]) ```