HTML特殊字符解析

Question

我正在尋找一個Java類來解析所有HTML特殊字符。 我想這是一個普遍的問題，但是我現在找不到快速的解決方案。

我想要得到的是：

input: th&egrave; --> output: thè
input: &#187;
input: &lraquo;
...

你知道對我有用的嗎？

Answer 1

你用谷歌搜索嗎？ “ java HTML標記實體解析器”上的第一個鏈接引用html文本提取器

這似乎是您所需要的。

另外，您可能需要檢查javax.swing.JLabel（和另一個swing文本組件）的渲染器。

Answer 2

嘗試使用StringEscapeUtils實用程序類。 檢查文檔中的StringEscapeUtils.unescapeHtml（）方法。

此處的文檔：

在這里下載：

http://commons.apache.org/lang/