java版的解析HTML的框架

jsoup:Java HTML Parser

jsoup是一个用于处理、解析HTML的Java库。它提供了一个非常方便的API,用于提取和操作数据,使用方式类似CSS和jquery。

优势或特性

  • jsoup实现HTML5规范,解析HTML和浏览器是一样的
  • 支持从URL,文件或字符串中解析HTML
  • 使用DOM遍历或CSS选择器查找和提取数据,使用方式类似jQuery
  • 修改HTML元素,属性和文本非常简单
  • 清除用户提交的内容以防止安全白名单,以防止XSS攻击
  • 输出整洁的HTML,支持不完整的HTML片段解析
  • 开源免费

    快速上手

    1.下载和安装

    官方下载地址:https://jsoup.org/download
    jar包下载:https://jsoup.org/packages/jsoup-1.12.1.jar
    使用maven:
    1. <!--最新版请访问maven官网下载-->
    2. <dependency>
    3. <!-- jsoup HTML parser library @ https://jsoup.org/ -->
    4. <groupId>org.jsoup</groupId>
    5. <artifactId>jsoup</artifactId>
    6. <version>1.12.1</version>
    7. </dependency>
    使用Gradle:
    1. // jsoup HTML parser library @ https://jsoup.org/
    2. compile 'org.jsoup:jsoup:1.12.1'

    2.解析一段HTML文本,代码如下:

    1. String html = "<html><head><title>First parse</title></head>" +
    2. "<body><p>Parsed HTML into a doc.</p></body></html>";
    3. Document doc = Jsoup.parse(html);

    jsoup开发思想简介

    把DOM文档解析成一个树结构数据。操作DOM对象使用类似CSS或jQuery的选择器方式。
    Jsoup类来操作一个文档,解析得到一个Document对象,Document有多个Element对象组成,也就是Elements
    所有的值的修改都是操作Element对象。