HTML特殊字符解析

Question

我正在寻找一个Java类来解析所有HTML特殊字符。 我想这是一个普遍的问题，但是我现在找不到快速的解决方案。

我想要得到的是：

input: th&egrave; --> output: thè
input: &#187;
input: &lraquo;
...

你知道对我有用的吗？

Answer 1

你用谷歌搜索吗？ “ java HTML标记实体解析器”上的第一个链接引用html文本提取器

这似乎是您所需要的。

另外，您可能需要检查javax.swing.JLabel（和另一个swing文本组件）的渲染器。

Answer 2

尝试使用StringEscapeUtils实用程序类。 检查文档中的StringEscapeUtils.unescapeHtml（）方法。

此处的文档：

在这里下载：

http://commons.apache.org/lang/