[英]Jsoup Whitelist: Parsing non-english character
我正在尝试清理HTML文本并使用Jsoup从中提取纯文本。 HTML可能包含非英文字符。
例如,HTML文本是:
String html = "<p>Á <a href='http://example.com/'><b>example</b></a> link.</p>";
现在,如果我使用Jsoup#parse(String html)
:
String text = Jsoup.parse(html).text();
它是印刷:
Á example link.
如果我使用Jsoup#clean(String bodyHtml, Whitelist whitelist)
清理文本:
String text = Jsoup.clean(html, Whitelist.none());
它是印刷:
Á example link.
我的问题是,我怎样才能得到这个文本
Á example link.
使用Whitelist
和clean()
方法? 我想使用Whitelist
因为我可能需要使用Whitelist#addTags(String... tags)
。
任何信息对我都非常有帮助。
谢谢。
不可能在当前版本(1.6.1),jsoup打印Á
如Á
因为实体转义功能,现在没有“不要转义”模式(检查Entities.EscapeMode
)。
您可以1.浏览这些HTML实体,2。通过添加带有空映射的新转义模式来扩展jsoup的源代码。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.