Jsoup Whitelist：解析非英语角色

Question

我正在尝试清理HTML文本并使用Jsoup从中提取纯文本。 HTML可能包含非英文字符。

例如，HTML文本是：

String html = "<p>Á <a href='http://example.com/'><b>example</b></a> link.</p>";

现在，如果我使用Jsoup#parse(String html) ：

String text = Jsoup.parse(html).text();

它是印刷：

Á example link.

String text = Jsoup.clean(html, Whitelist.none());

它是印刷：

&Aacute; example link.

我的问题是，我怎样才能得到这个文本

Á example link.

使用Whitelist和clean()方法？ 我想使用Whitelist因为我可能需要使用Whitelist#addTags(String... tags) 。

任何信息对我都非常有帮助。

谢谢。

Answer 1

不可能在当前版本（1.6.1），jsoup打印Á如Á 因为实体转义功能，现在没有“不要转义”模式（检查Entities.EscapeMode ）。

您可以1.浏览这些HTML实体，2。通过添加带有空映射的新转义模式来扩展jsoup的源代码。