使用Jsoup 1.11解析XHTML

Question

我正在尝试使用Jsoup解析XHTML文件，并剥离一些标签上的斜杠。 即：

<link rel="stylesheet" type="text/css" href="/css/assessment.css" />

变成

<link rel="stylesheet" type="text/css" href="/css/assessment.css">

我在这里尝试了其他一些答案：

Jsoup：如何将包含HTML的字符串转换为XHTML文档？ https://github.com/jhy/jsoup/issues/511 jsoup：从1.7.3升级到1.8.1后的结果不同，如何避免这种情况？

我最近的尝试是：

    File input = new File("src\\main\\resources\\templates\\assessmenttemplate.html");
    Document doc = Jsoup.parse(input, "UTF-8", "");
    doc.outputSettings().escapeMode(Entities.EscapeMode.xhtml);
    doc.outputSettings().charset("UTF-8")

我也尝试更改doctype：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

但是问题仍然存在。 如何解析HTML而不删除斜杠？

Answer 1

这工作：

    File input = new File("src\\main\\resources\\templates\\assessmenttemplate.html");
    Document doc = Jsoup.parse(input, "UTF-8", "");
    doc.outputSettings().syntax(Document.OutputSettings.Syntax.xml);
    doc.outputSettings().escapeMode(Entities.EscapeMode.xhtml);
    doc.outputSettings().charset("UTF-8");

使用Jsoup 1.11解析XHTML

问题描述

1 个解决方案

解决方案1
0 2018-07-05 02:29:40

使用Jsoup 1.11解析XHTML

问题描述

1 个解决方案

解决方案1 0 2018-07-05 02:29:40

解决方案1
0 2018-07-05 02:29:40