[英]parsing non-ASCII character in XML document
我正在嘗試使用SAX解析器解析此XML文檔:
<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE WIN_TPBOUND_MESSAGES SYSTEM "tpbound_messages_v1.dtd">
<WIN_TPBOUND_MESSAGES>
<SMSTOTP>
<SOURCE_ADDR>+447522579247</SOURCE_ADDR>
<TEXT>TEST: @£$¥èéùìò?ØøÅå& ^{}\\[~]¡€ÆæßÉ!\"#¤%'()*+,-./0123456789:;<=>? ÄÖÑܧ¿äöñüà end</TEXT>
<WINTRANSACTIONID>652193268</WINTRANSACTIONID>
</SMSTOTP>
</WIN_TPBOUND_MESSAGES>
解析<TEXT>
元素后,內容將轉換為:
TEST: @£$¥èéùìò?Ã�øÃ�Ã¥& ^{}\\[~]¡€Ã�æÃ�Ã�!\"#¤%'()*+,-./0123456789:;<=>? Ã�Ã�Ã�Ã�§¿äöñüà end
很明顯,非ASCII字符發生了不好的事情。 解析XML的代碼如下所示:
public void parse(InputStream xmlStream) throws WinGatewayException {
XMLReader parser = XMLReaderFactory.createXMLReader("org.apache.xerces.parsers.SAXParser");
parser.setContentHandler(this);
parser.setErrorHandler(error);
parser.setEntityResolver(new DTDResolver());
parser.setDTDHandler(this);
parser.setFeature("http://xml.org/sax/features/validation", true);
parser.setFeature("http://apache.org/xml/features/validation/schema", true);
parser.setFeature("http://apache.org/xml/features/nonvalidating/load-dtd-grammar", true);
parser.setFeature("http://xml.org/sax/features/namespace-prefixes", true);
parser.setFeature("http://apache.org/xml/features/continue-after-fatal-error", false);
parser.parse(new InputSource(xmlStream));
}
和對象提到了this
具有方法如:
public void endElement(String uri, String localName, String qName)
throws SAXException {
if (localName.equals("TEXT")) {
logger.debug("Parsed message text: " + cData.toString());
message.setText(cData.toString());
}
}
為什么XML解析器不保留這些非ASCII字符?
我相信你的XML文件實際上是UTF-8而不是ISO-8859-1。
ISO-8859-1編碼的文件每個字符只有一個字節,因此英鎊符號將是單個字節0xA3。 但是,看起來您的文件有0xC2 0xA3,這是您在UTF-8中為U + 00A3獲取的字節序列。
更改XML聲明以反映這一點:
<?xml version="1.0" encoding="UTF-8"?>
並看看是否能修復問題。 假設確實如此,那么您需要先了解產生這些不良數據的原因。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.