繁体   English   中英

如何在Java中解码XHTML和/或HTML5实体?

[英]How to decode XHTML and/or HTML5 entities in Java?

我有一些包含XHTML字符实体的字符串:

"They're quite varied"
"Sometimes the string ∈ XML standard, sometimes ∈ HTML4 standard"
"Therefore -> I need an XHTML entity decoder."
"Sadly, some strings are not valid XML & are not-quite-so-valid HTML <- but I want them to work, too."

有没有简单的方法可以解码实体? (我正在使用Java)

我目前正在使用StringEscapeUtils.unescapeHtml4(myString.replace("&apos;", "\\'"))作为临时hack。 遗憾的是, org.apache.commons.lang3.StringEscapeUtils具有unescapeHtml4unescapeXML ,但没有unescapeXhtml

编辑:我确实想处理无效的XML,例如我想要“ && xyzzy;”。 解码为“ && xyzzy;”

编辑:我认为HTML5具有几乎与XHTML相同的字符实体,因此我认为HTML 5解码器也可以。

这可能并不直接相关,但是您可能希望采用JSoup ,尽管它是从更高层次上进行处理的。 包括网页清洁程序。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM