使用jSoup，如何提取沒有任何類型的標簽包圍的文本？

Question

我在這里有此HTML代碼：

<hr />
<h3>Academic Recovery and Probation Conference Journal</h3>The Recovery Progress Journal is used to
record and guide conference discussions and to monitor students’ academic, behavioral and social
progress. 
<br />

如您所見，“ h3”標題下的文本周圍沒有任何標簽？ 我正在使用jSoup將此信息放入Android應用程序。 如果沒有標記來定義該段文本，我將如何提取？

Answer 1

我認為在沒有任何其他解析的情況下單獨使用Jsoup是不可能的。 Jsoup在DOM中定位元素，然后允許您訪問元素的數據。

您將必須找到包圍所需段落的最小元素，在其上運行.text（），然后自己解析.text（）的結果。

Answer 2

在這里回答（感謝）：

Jsoup-提取文本

懶惰的釋義版本：

// You need to get Nodes, not Elements
Document doc = Jsoup.parse(str);
Element div = doc.select("div").first();

for (Node node : div.childNodes()) {
    System.out.println(
        String.format(
            "%s %s",
            node.getClass().getSimpleName(),
            node.toString()
        )
    );
}

使用jSoup，如何提取沒有任何類型的標簽包圍的文本？

問題描述

2 個解決方案

解決方案1
0 已采納 2013-04-09 20:52:59

解決方案2
0 2013-08-12 18:06:14

使用jSoup，如何提取沒有任何類型的標簽包圍的文本？

問題描述

2 個解決方案

解決方案1 0 已采納 2013-04-09 20:52:59

解決方案2 0 2013-08-12 18:06:14

解決方案1
0 已采納 2013-04-09 20:52:59

解決方案2
0 2013-08-12 18:06:14