BeatifulSoup

官方文档

BeautifulSoup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.

历史对比

image.png

X(ml)Path

简介

又叫做路径解释器

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。

XPath 使用路径表达式在 XML 文档中进行导航

XPath 包含一个标准函数库

XPath 是 XSLT 中的主要元素

XPath 是一个 W3C 标准

注意事项

多重引号,外部不要使用相同的引号,否则IDE难以识别就会报错

切片的索引起始点是0, 而XPath是1

语法

第三节网页解析(一).md

BeatifulSoup & XPath.png

实战代码

db_film.py

我的练习

douban_book.py