[英]Reading JSON: what encoding is “\u00c5\u0082”? How do I get it to a unicode object?
我正在解析的JSON文件中的值之一是Wroc\Å\aw
。 如何将该字符串转换为产生“Wrocław”(在这种情况下是正确的解码)的unicode对象?
看起来无论生成什么过程,JSON都会采用UTF-8编码的文本并将其误认为是Latin-1编码的文本。 要解决该错误,请反向运行相同的过程:
>>> u'Wroc\u00c5\u0082aw'.encode('iso-8859-1').decode('utf-8')
u'Wroc\u0142aw'
>>> import unicodedata
>>> unicodedata.name(u'\u0142')
'LATIN SMALL LETTER L WITH STROKE'
看起来您的JSON没有正确的编码,因为\\ u00c5和\\ u0082aw都不会产生您期望的任何编码字符。
但是您可能会尝试将这个值编码为UTF8或UTF16
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.