[英]Jsoup Whitelist: Parsing non-english character
我正在嘗試清理HTML文本並使用Jsoup從中提取純文本。 HTML可能包含非英文字符。
例如,HTML文本是:
String html = "<p>Á <a href='http://example.com/'><b>example</b></a> link.</p>";
現在,如果我使用Jsoup#parse(String html)
:
String text = Jsoup.parse(html).text();
它是印刷:
Á example link.
如果我使用Jsoup#clean(String bodyHtml, Whitelist whitelist)
清理文本:
String text = Jsoup.clean(html, Whitelist.none());
它是印刷:
Á example link.
我的問題是,我怎樣才能得到這個文本
Á example link.
使用Whitelist
和clean()
方法? 我想使用Whitelist
因為我可能需要使用Whitelist#addTags(String... tags)
。
任何信息對我都非常有幫助。
謝謝。
不可能在當前版本(1.6.1),jsoup打印Á
如Á
因為實體轉義功能,現在沒有“不要轉義”模式(檢查Entities.EscapeMode
)。
您可以1.瀏覽這些HTML實體,2。通過添加帶有空映射的新轉義模式來擴展jsoup的源代碼。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.