簡體   English   中英

消息:hadoop中1字節UTF-8序列的無效字節1

[英]Message: Invalid byte 1 of 1-byte UTF-8 sequence in hadoop

我正在使用Hadoop解析XML,並且從這里獲得了代碼。

但我收到以下錯誤:

FINISH_TIME =“ 1385387129970” HOSTNAME =“ DEV140” ERROR =“ java.io.IOException:javax.xml.stream.XMLStreamException:[row,col]處的ParseError:[18,3]消息:1字節UTF的無效字節1 -8序列。

但是我的XML僅使用UTF-8編碼。 那我該如何處理呢?

懷疑這是問題-至少問題:

XMLStreamReader reader =
    XMLInputFactory.newInstance().createXMLStreamReader(new
        ByteArrayInputStream(document.getBytes()));

getBytes調用將使用平台默認編碼,而不是UTF-8。

可以指定"utf-8"作為編碼名稱-但是創建StringReader會更簡單:

XMLStreamReader reader = XMLInputFactory.newInstance()
    .createXMLStreamReader(new StringReader(document));

當然,這可能不是唯一的錯誤,但至少是要看的東西。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM