繁体   English   中英

如何存储非英文文本?

[英]How to store non-english text?

我有一个文本文件。 它由许多非英文字符组成。 我想将此文件存储为数字序列,例如 ascii。

如何表示非英文字符?

>>> str(ord('x'))
'120'
>>> str(ord('ç'))
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: ord() expected a character, but string of length 2 found
>>> 

您必须首先使用正确的编码方案对其进行decode ,然后您将获得该字符的序数值,因为ord返回单字符字符串的整数值:

>>> s = 'ç'
>>> s
'\xc3\xa7'
>>> print s
ç
>>> len(s)
2
>>> s.decode('utf-8')
u'\xe7'
>>> len(s.decode('utf-8'))
1
>>> ord(s.decode('utf-8'))
231

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM