[英]How to recover a Unicode string by its ASCII string in Python?
在問我的問題之前,我想舉一個例子。
u_string = u'\xcb\xa5\xb5'
u_string
Out[79]: 'Ë¥µ'
asc_string = ascii(u_string)
asc_string
Out[81]: "'\\xcb\\xa5\\xb5'"
在這里,我終於得到了一個僅包含 ascii 字符的 ascii 字符串(asc_string)。
我的問題是,如果我只有 asc_string,如何將其轉換為原始的 u_string(Unicode 字符串)?
謝謝馬丁
對於這種情況,最簡單的完全正確的方法是ast.literal_eval
:
>>> import ast
>>> origversion = u'\xcb\xa5\xb5' # Leading u is unnecessary on Python 3
>>> asciiform = ascii(origversion)
>>> origversion == ast.literal_eval(asciiform)
True
這樣做是因為使用ascii
一個字符串添加引號和轉義符,以使包含字符串字面再現原始的字符串(它只是一個字符串repr
,但堅持的唯一ASCII字符repr
); ast.literal_eval
旨在解析正則repr
文字的S(ASCII編碼或不),以產生生成的對象,在這種情況下一個字符串。
你可以這樣解碼:
asc_string.encode().decode( 'unicode-escape' )
# "'Ë¥µ'"
我不知道為什么,但是 ascii 添加了一組額外的引號,您可以像這樣刪除它們:
asc_string.encode().decode( 'unicode-escape' )[1:-1]
# 'Ë¥µ'
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.