簡體   English   中英

Jsoup Whitelist:解析非英語角色

[英]Jsoup Whitelist: Parsing non-english character

我正在嘗試清理HTML文本並使用Jsoup從中提取純文本。 HTML可能包含非英文字符。

例如,HTML文本是:

String html = "<p>Á <a href='http://example.com/'><b>example</b></a> link.</p>";

現在,如果我使用Jsoup#parse(String html)

String text = Jsoup.parse(html).text();

它是印刷:

Á example link.

如果我使用Jsoup#clean(String bodyHtml, Whitelist whitelist)清理文本:

String text = Jsoup.clean(html, Whitelist.none());

它是印刷:

&Aacute; example link.

我的問題是,我怎樣才能得到這個文本

Á example link.

使用Whitelistclean()方法? 我想使用Whitelist因為我可能需要使用Whitelist#addTags(String... tags)

任何信息對我都非常有幫助。

謝謝。

不可能在當前版本(1.6.1),jsoup打印Á&Aacute; 因為實體轉義功能,現在沒有“不要轉義”模式(檢查Entities.EscapeMode )。

您可以1.瀏覽這些HTML實體,2。通過添加帶有空映射的新轉義模式來擴展jsoup的源代碼。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM