[英]python ascii to unicode conversion
i have a file with data like this: 我有一个文件,像这样的数据:
\r\n\tSoci\u00e9t\u00e9 implant\u00e9 dans l'internet recrute des t\u00e9l\u00e9conseillers en b to b pour effectuer de la prise de rendez-vous qualifi\u00e9 pour de la conception de site internet et du r\u00e9f\u00e9rencement google.
how can i print it as unicode, like this: 我如何将其打印为unicode,如下所示:
Société implanté dans l'internet recrute des téléconseillers en b to b pour effectuer de la prise de rendez-vous qualifié pour de la conception de site internet et du référencement google.
i know i have to use some unicode function but what? 我知道我必须使用一些unicode函数,但是呢?
That looks like a python unicode string literal; 看起来像是python unicode字符串文字; decode this from unicode_escape
. 从unicode_escape
解码。
Demo: 演示:
>>> data = "\r\n\tSoci\u00e9t\u00e9 implant\u00e9 dans l'internet recrute des t\u00e9l\u00e9conseillers en b to b pour effectuer de la prise de rendez-vous qualifi\u00e9 pour de la conception de site internet et du r\u00e9f\u00e9rencement google."
>>> data.decode('unicode_escape')
u"\r\n\tSoci\xe9t\xe9 implant\xe9 dans l'internet recrute des t\xe9l\xe9conseillers en b to b pour effectuer de la prise de rendez-vous qualifi\xe9 pour de la conception de site internet et du r\xe9f\xe9rencement google."
>>> print data.decode('unicode_escape')
Société implanté dans l'internet recrute des téléconseillers en b to b pour effectuer de la prise de rendez-vous qualifié pour de la conception de site internet et du référencement google.
You can either decode the data as you read it from the file (using a binary mode), or you can use io.open()
in Python 2, or regular open()
in Python 3 to have data decoded on the fly: 您可以从文件中读取数据时对数据进行解码(使用二进制模式),也可以在Python 2中使用io.open()
,或者在Python 3中使用常规的open()
来实时解码数据:
from io import open
with open(filename, 'r', encoding="unicode_escape") as inputfile:
for line in inputfile:
print(inputfile)
Note that JSON strings use the same escape syntax; 注意,JSON字符串使用相同的转义语法。 \\uhhhh
denotes a Unicode codepoint using just ASCII characters. \\uhhhh
表示仅使用ASCII字符的Unicode代码点。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.