Java HTML PDF
Java 转换 HTML 到PDF有许多类库,这里介绍一下第三方免费的类库OpenPDF。

1、OpenPDF

OpenPDF是免费的Java类库 ,遵从LGPL 和 MPL协议,所以基本上能够可以随意使用。OpenPDF是基于iTEXT的,目前来说也是维护的比较好的Java操作PDF的开源软件。
所需要的依赖:

  1. <dependency>
  2. <groupId>org.jsoup</groupId>
  3. <artifactId>jsoup</artifactId>
  4. <version>1.13.1</version>
  5. </dependency>
  6. <dependency>
  7. <groupId>com.openhtmltopdf</groupId>
  8. <artifactId>openhtmltopdf-core</artifactId>
  9. <version>1.0.6</version>
  10. </dependency>
  11. <dependency>
  12. <groupId>com.openhtmltopdf</groupId>
  13. <artifactId>openhtmltopdf-pdfbox</artifactId>
  14. <version>1.0.6</version>
  15. </dependency>

jsoup可以将html文件转换成输入流等,也可以遍历html的DOM节点,提取元素及样式等。

2、示例

示例将以下html文件转换成pdf

  1. <html>
  2. <head>
  3. <style>
  4. .center_div {
  5. border: 1px solid #404e94;
  6. margin-left: auto;
  7. margin-right: auto;
  8. background-color: #f6d0ed;
  9. text-align: left;
  10. padding: 8px;
  11. }
  12. table {
  13. width: 100%;
  14. border: 1px solid black;
  15. }
  16. th, td {
  17. border: 1px solid black;
  18. }
  19. body,html,input{font-family:"msyh";}
  20. </style>
  21. </head>
  22. <body>
  23. <div class="center_div">
  24. <h1>Hello java North!</h1>
  25. <div>
  26. <p>convert html to pdf.</p>
  27. </div>
  28. <div>
  29. <table>
  30. <thead>
  31. <th>ROLE</th>
  32. <th>NAME</th>
  33. <th>TITLE</th>
  34. </thead>
  35. <tbody>
  36. <tr>
  37. <td>MARKSMAN</td>
  38. <td>ASHE</td>
  39. <td>THE FROST ARCHER</td>
  40. </tr>
  41. <tr>
  42. <td>MAGES</td>
  43. <td>ANNIE</td>
  44. <td>THE DARK CHILD</td>
  45. </tr>
  46. <tr>
  47. <td>射手</td>
  48. <td>凯塔琳</td>
  49. <td>皮城女警</td>
  50. </tr>
  51. </tbody>
  52. </table>
  53. </div>
  54. </div>
  55. </body>
  56. </html>

以上html用浏览器打开如下,乱码是因为中文字体不识别,下面转换的时候会加载对应的字体来进行转换。
Java实现HTML转换成PDF - 图1
使用Java转换HTML到PDF代码如下:

  1. public class HtmlToPDFOpenSource {
  2. public static void main(String[] args) throws IOException {
  3. HtmlToPDFOpenSource htmlToPDFOpenSource = new HtmlToPDFOpenSource();
  4. htmlToPDFOpenSource.generatePdfByOpenhtmltopdf();
  5. }
  6. private void generatePdfByOpenhtmltopdf() throws IOException {
  7. File inputHtml = new File("E:\\javaNorth\\java-study-note\\javaOpenSource\\src\\main\\resources\\test.html");
  8. //加载html文件
  9. Document document = Jsoup.parse(inputHtml, "UTF-8");
  10. document.outputSettings().syntax(Document.OutputSettings.Syntax.html);
  11. //引入资源目录,可以单独引入css,图片文件等
  12. String baseUri = FileSystems.getDefault()
  13. .getPath("javaOpenSource\\src\\main\\resources")
  14. .toUri().toString();
  15. try (OutputStream os = new FileOutputStream("javaOpenSource\\src\\main\\resources\\testOpenLeagueoflegends1.pdf")) {
  16. PdfRendererBuilder builder = new PdfRendererBuilder();
  17. builder.withUri("javaOpenSource\\src\\main\\resources\\testOpenLeagueoflegends1.pdf");
  18. builder.toStream(os);
  19. builder.withW3cDocument(new W3CDom().fromJsoup(document), baseUri);
  20. //引入指定字体,注意字体名需要和css样式中指定的字体名相同
  21. builder.useFont(new File("javaOpenSource\\src\\main\\resources\\fonts\\msyh.ttf"),"msyh",1,BaseRendererBuilder.FontStyle.NORMAL, true);
  22. builder.run();
  23. }
  24. }
  25. }

使用Java代码转换成PDF如下(示例中使用了微软雅黑中文字体):
Java实现HTML转换成PDF - 图2
上述html文件中增加如下外部样式:

  1. <link href="style.css" rel="stylesheet">

并在resources目录下添加style.css文件,重新生成PDF文件如下。
Java实现HTML转换成PDF - 图3

3、总结

介绍了使用OpenPDF将html文件转换成PDF文件。同时也使用了自定义字体,外部样式。但是以下几点需要格外注意。

  • Java代码中加载的字体名称要和HTML引用的CSS样式中的字体名相同 ({font-family:"msyh";})。
  • HTML文件标签节点必须闭合(<xxx></xxx>),否则解析会失败。