繁体   English   中英

Jsoup Whitelist:解析非英语角色

[英]Jsoup Whitelist: Parsing non-english character

我正在尝试清理HTML文本并使用Jsoup从中提取纯文本。 HTML可能包含非英文字符。

例如,HTML文本是:

String html = "<p>Á <a href='http://example.com/'><b>example</b></a> link.</p>";

现在,如果我使用Jsoup#parse(String html)

String text = Jsoup.parse(html).text();

它是印刷:

Á example link.

如果我使用Jsoup#clean(String bodyHtml, Whitelist whitelist)清理文本:

String text = Jsoup.clean(html, Whitelist.none());

它是印刷:

&Aacute; example link.

我的问题是,我怎样才能得到这个文本

Á example link.

使用Whitelistclean()方法? 我想使用Whitelist因为我可能需要使用Whitelist#addTags(String... tags)

任何信息对我都非常有帮助。

谢谢。

不可能在当前版本(1.6.1),jsoup打印Á&Aacute; 因为实体转义功能,现在没有“不要转义”模式(检查Entities.EscapeMode )。

您可以1.浏览这些HTML实体,2。通过添加带有空映射的新转义模式来扩展jsoup的源代码。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM