如何在Java中解码XHTML和/或HTML5实体？

Question

我有一些包含XHTML字符实体的字符串：

"They&apos;re quite varied"
"Sometimes the string &isin; XML standard, sometimes &isin; HTML4 standard"
"Therefore -&gt; I need an XHTML entity decoder."
"Sadly, some strings are not valid XML & are not-quite-so-valid HTML <- but I want them to work, too."

有没有简单的方法可以解码实体？ （我正在使用Java）

我目前正在使用StringEscapeUtils.unescapeHtml4(myString.replace("'", "\\'"))作为临时hack。 遗憾的是， org.apache.commons.lang3.StringEscapeUtils具有unescapeHtml4和unescapeXML ，但没有unescapeXhtml 。

编辑：我确实想处理无效的XML，例如我想要“ && xyzzy;”。 解码为“ && xyzzy;”

编辑：我认为HTML5具有几乎与XHTML相同的字符实体，因此我认为HTML 5解码器也可以。

Answer 1

这可能并不直接相关，但是您可能希望采用JSoup ，尽管它是从更高层次上进行处理的。 包括网页清洁程序。

如何在Java中解码XHTML和/或HTML5实体？

问题描述

1 个解决方案

解决方案1
0 2014-02-19 14:34:06

如何在Java中解码XHTML和/或HTML5实体？

问题描述

1 个解决方案

解决方案1 0 2014-02-19 14:34:06

解决方案1
0 2014-02-19 14:34:06