jsoup:Java HTML Parser
jsoup
是一个用于处理、解析HTML的Java库。它提供了一个非常方便的API,用于提取和操作数据,使用方式类似CSS和jquery。
优势或特性
jsoup
实现HTML5规范,解析HTML和浏览器是一样的- 支持从URL,文件或字符串中解析HTML
- 使用DOM遍历或CSS选择器查找和提取数据,使用方式类似jQuery
- 修改HTML元素,属性和文本非常简单
- 清除用户提交的内容以防止安全白名单,以防止XSS攻击
- 输出整洁的HTML,支持不完整的HTML片段解析
- 开源免费
快速上手
1.下载和安装
官方下载地址:https://jsoup.org/download
jar包下载:https://jsoup.org/packages/jsoup-1.12.1.jar
使用maven:
使用Gradle:<!--最新版请访问maven官网下载-->
<dependency>
<!-- jsoup HTML parser library @ https://jsoup.org/ -->
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.12.1</version>
</dependency>
// jsoup HTML parser library @ https://jsoup.org/
compile 'org.jsoup:jsoup:1.12.1'
2.解析一段HTML文本,代码如下:
String html = "<html><head><title>First parse</title></head>" +
"<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
jsoup开发思想简介
把DOM文档解析成一个树结构数据。操作DOM对象使用类似CSS或jQuery的选择器方式。
Jsoup类来操作一个文档,解析得到一个Document对象,Document有多个Element对象组成,也就是Elements
所有的值的修改都是操作Element对象。