消息：hadoop中1字節UTF-8序列的無效字節1

Question

我正在使用Hadoop解析XML，並且從這里獲得了代碼。

但我收到以下錯誤：

FINISH_TIME =“ 1385387129970” HOSTNAME =“ DEV140” ERROR =“ java.io.IOException：javax.xml.stream.XMLStreamException：[row，col]處的ParseError：[18,3]消息：1字節UTF的無效字節1 -8序列。

但是我的XML僅使用UTF-8編碼。 那我該如何處理呢？

Answer 1

我懷疑這是問題-至少是問題：

XMLStreamReader reader =
    XMLInputFactory.newInstance().createXMLStreamReader(new
        ByteArrayInputStream(document.getBytes()));

對getBytes調用將使用平台默認編碼，而不是UTF-8。

您可以指定"utf-8"作為編碼名稱-但是創建StringReader會更簡單：

XMLStreamReader reader = XMLInputFactory.newInstance()
    .createXMLStreamReader(new StringReader(document));

當然，這可能不是唯一的錯誤，但至少是要看的東西。

消息：hadoop中1字節UTF-8序列的無效字節1

問題描述

1 個解決方案

解決方案1
1 已采納 2013-11-25 14:03:57

消息：hadoop中1字節UTF-8序列的無效字節1

問題描述

1 個解決方案

解決方案1 1 已采納 2013-11-25 14:03:57

解決方案1
1 已采納 2013-11-25 14:03:57