无法解码python中的西里尔字符串

Question

我有一个带有字符串的编码文件

b'1'    b'\xca\xee\xef\xe5\xe9\xf1\xea' b'1'    b'ADMIN'    b'2013-07-08 00:21:55'  
b'2'    b'\xd7\xe5\xeb\xff\xe1\xe8\xed\xf1\xea' b'1'    b'ADMIN'    b'2013-07-08 00:22:05'

我该如何解码呢？ 我试图使用编解码器，解码/编码cp1251，但它没有用。

file -bi说charset = us-ascii

实际上应该有西里尔字符串（cp1251）

python 2.7

输出：

>>> w=r'\xd7\xe5\xe\xff\xe1\xe8\xed\xf1\xea'
>>> w='\xd7\xe5\xe\xff\xe1\xe8\xed\xf1\xea'
ValueError: invalid \x escape
>>> w=r'\xd7\xe5\xe\xff\xe1\xe8\xed\xf1\xea'
>>> w.decode('raw_unicode_escape')
u'\\xd7\\xe5\\xe\\xff\\xe1\\xe8\\xed\\xf1\\xea'
>>> w.decode('utf-8')
u'\\xd7\\xe5\\xe\\xff\\xe1\\xe8\\xed\\xf1\\xea'
>>> unicode(w)
u'\\xd7\\xe5\\xe\\xff\\xe1\\xe8\\xed\\xf1\\xea'
>>> unicode(w, 'utf-8')
u'\\xd7\\xe5\\xe\\xff\\xe1\\xe8\\xed\\xf1\\xea'

我做了一切：解码（“utf-8”），使用unicode等，但没有任何改变。 每次我得到相同的字节集。

Answer 1

问题是当你的w变量中的第3个\\x转义失效后，你错过了一个b 。

>>> w = '\xd7\xe5\xeb\xff\xe1\xe8\xed\xf1\xea'
>>> w.decode('cp1251')
u'\u0427\u0435\u043b\u044f\u0431\u0438\u043d\u0441\u043a'

无法解码python中的西里尔字符串

问题描述

1 个解决方案

解决方案1
3 已采纳 2014-05-16 01:44:18

无法解码python中的西里尔字符串

问题描述

1 个解决方案

解决方案1 3 已采纳 2014-05-16 01:44:18

解决方案1
3 已采纳 2014-05-16 01:44:18