磁盘上有一个包含HTML的文件,您要加载和解析,然后可以操作或提取数据。
使用静态[Jsoup.parse(File in, String charsetName, String baseUri)](https://jsoup.org/apidocs/org/jsoup/Jsoup.html#parse-java.io.File-java.lang.String-java.lang.String-)
方法:
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
描述
该[parse(File in, String charsetName, String baseUri)](https://jsoup.org/apidocs/org/jsoup/Jsoup.html#parse-java.io.File-java.lang.String-java.lang.String-)
方法加载并解析HTML文件。如果在加载文件时发生错误,它将抛出一个IOException
,你应该适当处理。baseUri
解析器使用该参数在<base href>
找到元素之前解析文档中的相对URL 。如果您不关心这一点,则可以传递空字符串。
有一个姐妹方法[parse(File in, String charsetName)](https://jsoup.org/apidocs/org/jsoup/Jsoup.html#parse-java.io.File-java.lang.String-)
使用文件的位置作为baseUri
。如果您正在处理文件系统本地站点并且它指向的相对链接也在文件系统上,这将非常有用。