Jsoup如何輸出格式良好的XML？

Question

當Jsoup遇到某些類型的HTML（復雜或不正確）時，它可能會發出格式錯誤的HTML。 一個例子是：

<html>
 <head>
  <meta name="x" content="y is "bad" here">
 </head>
 <body/>
</html>

引號應該被轉義的地方。 當Jsoup解析它時，它會發出：

<html>
 <head>
  <meta name="x" content="y is " bad"="" here"="" />
 </head>
 <body></body>
</html>

這不符合HTML或XML。 這是有問題的，因為它將在鏈的下一個解析器中失敗。

有沒有辦法確保Jsoup發出錯誤消息或（如HtmlTidy）可以輸出格式良好的XML，即使它已經丟失了一些信息（畢竟我們現在無法確定什么是正確的）。

更新：失敗的代碼是：

    @Test
public void testJsoupParseMetaBad() {
    String s = "<html><meta name=\"x\" content=\"y is \"bad\" here\"><body></html>";
    Document doc = Jsoup.parse(s);
    String ss = doc.toString();
        Assert.assertEquals("<html> <head> <meta name=\"x\" content=\"y is \""
            +" bad\"=\"\" here\"=\"\" /> </head> <body></body> </html>", ss);
}

我在用：

    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.7.2</version>
    </dependency>

其他人似乎有同樣的問題： JSoup - 內部屬性的引用那里的答案沒有幫助我，因為我必須接受我給予的

Answer 1

問題是當你解析時，因為jsoup正在創建3個屬性：

content="y is "bad" here"

並且屬性的名稱包含引號“character.Jsoup確實轉義屬性的值，但不轉義它的名稱。

由於您是從字符串構建html doc，因此可以在解析階段獲得錯誤。 有一種方法是將org.jsoup.parser.Parser作為參數。 默認的解析方法不是跟蹤錯誤。

    String s = "<html><meta name=\"x\" content=\"y is \"bad\" here\"><body></html>";
    Parser parser = Parser.htmlParser(); // or Parser.xmlParser
    parser.setTrackErrors(100);
    Document doc = Jsoup.parse(s, "", parser);
    System.out.println(parser.getErrors());

輸出：

[37：輸入狀態[AfterAttributeValue_quoted]中的意外字符'a'，40：輸入狀態[AttributeName]中的意外字符'，46：輸入狀態[AttributeName]中的意外字符'>']

如果您不想更改解析並且只想獲得有效輸出，則可以刪除無效屬性：

public static void fixIt(Document doc) {
    Elements els = doc.getAllElements();
    for(Element el:els){
        Attributes attributes = el.attributes();
        Set<String> remove = new HashSet<>();
        for(Attribute a:attributes){
            if(isForbidden(a.getKey())){
               remove.add(a.getKey());
            }
        }

        for(String k:remove){
            el.removeAttr(k);
        }
    }
}

public static boolean isForbidden(String el) {
    return el.contains("\""); //TODO
}

Jsoup如何輸出格式良好的XML？

問題描述

1 個解決方案

解決方案1
1 2014-05-19 15:49:13

Jsoup如何輸出格式良好的XML？

問題描述

1 個解決方案

解決方案1 1 2014-05-19 15:49:13

解決方案1
1 2014-05-19 15:49:13