簡體   English   中英

在Ruby on Rails上讀取文件時,兩個相等的XML具有差異

[英]Two equal XML with differences when reading the file on Ruby on Rails

我必須解析來自兩個不同軟件的XML文件。 其中一個文件在解析過程中失敗。 因此,我開始調試問題,現在我復制了“好文件”內容並將其粘貼到“壞文件”。 但是錯誤仍然存​​在! 我還將“壞文件”內容粘貼到好文件中,一切正常!

我認為這與某些編碼問題有關。

如果XML文件未聲明編碼,是否有一些我可能會丟失的元數據?

當我在ruby上讀取文件時的輸出

File.read(Rails.root.join('bad-file.xml'))

\xFF\xFE<\u0000f\u0000i\u0000l\u0000e\u0000>\u0000\r\u0000<\u0000A\u0000L\u0000L\u0000_\u0000I\u0000N\u0000S\u0000T\u0000A\u0000N\u0000C\u0000E\u0000S\u0000>\u0000\r\u0000\r\u0000<\u0000i\u0000n\u0000s\u0000t\u0000a\u0000n\u0000c\u0000e\u0000>\u0000\r\u0000<\u0000I\u0000D\u0000>\u00009\u00005\u00003\u0000<\u0000/\u0000I\u0000D\u0000>\u0000\r\u0000<\u0000s\u0000t\u0000a\u0000r\u0000t\u0000>\u00005\u00000\u00005\u00009\u0000.\u00002\u00006\u00002\u00002\u00000\u00001....

File.read(Rails.root.join('good-file.xml'))

<file>\r\n<ALL_INSTANCES>\r\n\r\n<instance>\r\n<ID>953</ID>\r\n<start>5059.2622016567</start>\r\n<end>5060.2622016567</end>\r\n<code>timer-1sec</code>\r\n<label>\r\n<group>result</group>\r\n<text>Dabang Eindringen SK</text>\r\n</label>\r\n</instance>\r\n</ALL_INSTANCES>\r\n\r\n<ROWS>\r\n<row>\r\n<code>timer-1sec</code>\r\n<R>0</R>\r\n<G>0</G>\r\n<B>0</B>\r\n</row>\r\n</ROWS>\r\n</file>

前兩個字節\\xFF\\xFE是unicode字節順序標記-它們表示其余數據為UTF16(以小尾數順序)

如果你這樣做

File.read(path, mode: 'r:UTF-16LE')

然后,文件的外部編碼將被設置為該值。 數據在返回之前已轉換為默認的內部編碼。 您可以通過以下方式將其強制為utf-8:

File.read(path, mode: 'r:UTF-16LE:UTF-8')

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM