解析XML文檔中的非ASCII字符

Question

我正在嘗試使用SAX解析器解析此XML文檔：

<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE WIN_TPBOUND_MESSAGES SYSTEM "tpbound_messages_v1.dtd">
<WIN_TPBOUND_MESSAGES>
    <SMSTOTP>
        <SOURCE_ADDR>+447522579247</SOURCE_ADDR>
        <TEXT>TEST: @£$¥èéùìò?ØøÅå&amp; ^{}\\[~]¡&#8364;ÆæßÉ!\"#¤%'()*+,-./0123456789:;&lt;=&gt;? ÄÖÑÜ§¿äöñüà end</TEXT>
        <WINTRANSACTIONID>652193268</WINTRANSACTIONID>
    </SMSTOTP>
</WIN_TPBOUND_MESSAGES>

解析<TEXT>元素后，內容將轉換為：

TEST: @Â£$Â¥Ã¨Ã©Ã¹Ã¬Ã²?Ã�Ã¸Ã�Ã¥& ^{}\\[~]Â¡€Ã�Ã¦Ã�Ã�!\"#Â¤%'()*+,-./0123456789:;<=>? Ã�Ã�Ã�Ã�Â§Â¿Ã¤Ã¶Ã±Ã¼Ã  end

很明顯，非ASCII字符發生了不好的事情。 解析XML的代碼如下所示：

public void parse(InputStream xmlStream) throws WinGatewayException {
    XMLReader parser = XMLReaderFactory.createXMLReader("org.apache.xerces.parsers.SAXParser");
    parser.setContentHandler(this);
    parser.setErrorHandler(error);
    parser.setEntityResolver(new DTDResolver());
    parser.setDTDHandler(this);
    parser.setFeature("http://xml.org/sax/features/validation", true);
    parser.setFeature("http://apache.org/xml/features/validation/schema", true);
    parser.setFeature("http://apache.org/xml/features/nonvalidating/load-dtd-grammar", true);
    parser.setFeature("http://xml.org/sax/features/namespace-prefixes", true);
    parser.setFeature("http://apache.org/xml/features/continue-after-fatal-error", false);
    parser.parse(new InputSource(xmlStream));
}

和對象提到了this具有方法如：

public void endElement(String uri, String localName, String qName)
        throws SAXException {

        if (localName.equals("TEXT")) {   
            logger.debug("Parsed message text: " + cData.toString());
            message.setText(cData.toString());
        }
}

為什么XML解析器不保留這些非ASCII字符？

Answer 1

我相信你的XML文件實際上是UTF-8而不是ISO-8859-1。

ISO-8859-1編碼的文件每個字符只有一個字節，因此英鎊符號將是單個字節0xA3。 但是，看起來您的文件有0xC2 0xA3，這是您在UTF-8中為U + 00A3獲取的字節序列。

更改XML聲明以反映這一點：

<?xml version="1.0" encoding="UTF-8"?>

並看看是否能修復問題。 假設確實如此，那么您需要先了解產生這些不良數據的原因。

解析XML文檔中的非ASCII字符

問題描述

1 個解決方案

解決方案1
3 已采納 2012-06-21 11:00:48

解析XML文檔中的非ASCII字符

問題描述

1 個解決方案

解決方案1 3 已采納 2012-06-21 11:00:48

解決方案1
3 已采納 2012-06-21 11:00:48