解析時如何防止Jsoup擦除文本內部的尖括號

Question

我正在嘗試僅解析html文件的文本，該文件包含尖括號作為文本的一部分。

例如，html文件將如下所示：

<html>
 <head></head> 
 <body> 
  <div>
    <p>1. <someUnicodeString></p> 
    <p>2. <foo 2012.12.26.></p> 
    <p>3. <123 2012.12.26.></p> 
    <p>4. <@ 2012.12.26.></p> 
    <p>5. foobarbar</p> 
  </div>
 </body>
</html>

我希望解析的文本文件的結果如下所示：

1. <someUnicodeString> 
2. <foo 2012.12.26.> 
3. <123 2012.12.26.> 
4. <@ 2012.12.26.> 
5. foobarbar

我正在使用Jsoup的parse函數來實現此目標，如下所示，

Document doc = null;

try {
    doc = Jsoup.parse(new File(path), "UTF-8");
    doc.outputSettings(new Document.OutputSettings().prettyPrint(false));
    doc.outputSettings().escapeMode(EscapeMode.xhtml);

    //set line breaks in readable format
    doc.select("br").append("\\n");
    doc.select("p").prepend("\\n\\n");
    String bodyText = doc.body().html().replaceAll("\\\\n", "\n");
    bodyText = Jsoup.clean(bodyText, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));

    File f = new File(textFileName+".txt");
    f.getParentFile().mkdirs();
    PrintWriter writer = new PrintWriter(f, "UTF-8");
    writer.print(Parser.unescapeEntities(bodyText, false));
    writer.close();
} catch(IOException e) {
    //Do something
    e.printStackTrace();
}

但是，一旦Jsoup經歷了解析過程，它將為每個尖括號添加標簽，后跟字符。

<p>1. <someUnicodeString></someUnicodeString></p> 
<p>2. <foo 2012.12.26.></foo></p> 
<p>3. <123 2012.12.26.></p> 
<p>4. <@ 2012.12.26.></p> 
<p>5. foobarbar</p>

最終產生結果

1.  
2.  
3. <123 2012.12.26.> 
4. <@ 2012.12.26.> 
5. asdasd

解析時如何防止Jsoup擦除文本內部的尖括號？

還是有辦法讓Jsoup識別某些尖括號不是html元素？ （也許使用正則表達式？）

我是Jsoup的新手，非常感謝任何幫助。 謝謝。

Answer 1

感謝Davide Pastore的評論，以及“ HTML中的右括號 ”問題

我可以使用以下代碼解決問題。

doc = Jsoup.parse(new File(path), "UTF-8");
//replace all left-angle tags inside <p> element to "&lt;"
Elements pTags = doc.select("p");
for (Element tag : pTags) {
    //change the boundary of the regex to whatever suits you
    if (tag.html().matches("(.*)<[a-z](.*)")) {
        String innerHTML = tag.html().replaceAll("<(?=[a-z])", "&lt;");
        tag.html(innerHTML);
    }
}

如果你經過轉換的過程“<”，在文本<你開始解析之前，你將能夠在得到正確的輸出。

解析時如何防止Jsoup擦除文本內部的尖括號

問題描述

1 個解決方案

解決方案1
0 已采納 2016-07-25 01:34:59

解析時如何防止Jsoup擦除文本內部的尖括號

問題描述

1 個解決方案

解決方案1 0 已采納 2016-07-25 01:34:59

解決方案1
0 已采納 2016-07-25 01:34:59