Jsoup Whitelist：解析非英語角色

Question

我正在嘗試清理HTML文本並使用Jsoup從中提取純文本。 HTML可能包含非英文字符。

例如，HTML文本是：

String html = "<p>Á <a href='http://example.com/'><b>example</b></a> link.</p>";

現在，如果我使用Jsoup#parse(String html) ：

String text = Jsoup.parse(html).text();

它是印刷：

Á example link.

String text = Jsoup.clean(html, Whitelist.none());

它是印刷：

&Aacute; example link.

我的問題是，我怎樣才能得到這個文本

Á example link.

使用Whitelist和clean()方法？ 我想使用Whitelist因為我可能需要使用Whitelist#addTags(String... tags) 。

任何信息對我都非常有幫助。

謝謝。

Answer 1

不可能在當前版本（1.6.1），jsoup打印Á如Á 因為實體轉義功能，現在沒有“不要轉義”模式（檢查Entities.EscapeMode ）。

您可以1.瀏覽這些HTML實體，2。通過添加帶有空映射的新轉義模式來擴展jsoup的源代碼。