簡體   English   中英

使用Jsoup 1.11解析XHTML

[英]Parsing XHTML with Jsoup 1.11

我正在嘗試使用Jsoup解析XHTML文件,並剝離一些標簽上的斜杠。 即:

<link rel="stylesheet" type="text/css" href="/css/assessment.css" />

變成

<link rel="stylesheet" type="text/css" href="/css/assessment.css">

我在這里嘗試了其他一些答案:

Jsoup:如何將包含HTML的字符串轉換為XHTML文檔? https://github.com/jhy/jsoup/issues/511 jsoup:從1.7.3升級到1.8.1后的結果不同,如何避免這種情況?

我最近的嘗試是:

    File input = new File("src\\main\\resources\\templates\\assessmenttemplate.html");
    Document doc = Jsoup.parse(input, "UTF-8", "");
    doc.outputSettings().escapeMode(Entities.EscapeMode.xhtml);
    doc.outputSettings().charset("UTF-8")

我也嘗試更改doctype:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

但是問題仍然存在。 如何解析HTML而不刪除斜杠?

這工作:

    File input = new File("src\\main\\resources\\templates\\assessmenttemplate.html");
    Document doc = Jsoup.parse(input, "UTF-8", "");
    doc.outputSettings().syntax(Document.OutputSettings.Syntax.xml);
    doc.outputSettings().escapeMode(Entities.EscapeMode.xhtml);
    doc.outputSettings().charset("UTF-8");

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM