如何使用jsoup從這個html標簽獲取文本？

Question

當我使用jsoup提取數據時，我遇到了一個位置。 這樣的數據：

This is a <strong>strong</strong> number <date>2013</date>

我想得到這樣的數據： This is a number

我怎樣才能做到這一點？ 誰能幫我？

Answer 1

您可以將html解析為Document ，選擇body -Element並獲取其文本。

例：

Document doc = Jsoup.parse("This is a <strong>strong</strong> number <date>2013</date>");

String ownText = doc.body().ownText();
String text = doc.body().text();

System.out.println(ownText);
System.out.println(text);

輸出：

This is a number  
This is a strong number 2013

Answer 2

這應該回答你的問題：

public String escapeHtml(String source) {
    Document doc = Jsoup.parseBodyFragment(source);
    Elements elements = doc.select("b");
    for (Element element : elements) {
        element.replaceWith(new TextNode(element.toString(),""));
    }
    return Jsoup.clean(doc.body().toString(), new Whitelist().addTags("a").addAttributes("a", "href", "name", "rel", "target"));
}

Jsoup - 如何通過逃避不刪除不需要的HTML來清理html？

Answer 3

Document doc = Jsoup.parse("This is a <strong>strong</strong> number <date>2013</date>");

Spanned HtmlDoc = Html.fromHtml(doc.toString());
String fromHTML = HtmlDoc.toString();

System.out.println(fromHTML);

如何使用jsoup從這個html標簽獲取文本？

問題描述

3 個解決方案

解決方案1
7 已采納 2013-04-12 23:17:32

解決方案2
3 2013-04-12 23:17:32

解決方案3
0

如何使用jsoup從這個html標簽獲取文本？

問題描述

3 個解決方案

解決方案1 7 已采納 2013-04-12 23:17:32

解決方案2 3 2013-04-12 23:17:32

解決方案3 0

解決方案1
7 已采納 2013-04-12 23:17:32

解決方案2
3 2013-04-12 23:17:32

解決方案3
0