簡體   English   中英

如何通過 Python 中的 ASCII 字符串恢復 Unicode 字符串?

[英]How to recover a Unicode string by its ASCII string in Python?

在問我的問題之前,我想舉一個例子。

u_string = u'\xcb\xa5\xb5'
u_string
Out[79]: 'Ë¥µ'
asc_string = ascii(u_string)
asc_string
Out[81]: "'\\xcb\\xa5\\xb5'"

在這里,我終於得到了一個僅包含 ascii 字符的 ascii 字符串(asc_string)。

我的問題是,如果我只有 asc_string,如何將其轉換為原始的 u_string(Unicode 字符串)?

謝謝馬丁

對於這種情況,最簡單的完全正確的方法是ast.literal_eval

>>> import ast
>>> origversion = u'\xcb\xa5\xb5'  # Leading u is unnecessary on Python 3
>>> asciiform = ascii(origversion)
>>> origversion == ast.literal_eval(asciiform)
True

這樣做是因為使用ascii一個字符串添加引號和轉義符,以使包含字符串字面再現原始的字符串(它只是一個字符串repr ,但堅持的唯一ASCII字符repr ); ast.literal_eval旨在解析正則repr文字的S(ASCII編碼或不),以產生生成的對象,在這種情況下一個字符串。

你可以這樣解碼:

asc_string.encode().decode( 'unicode-escape' )  
# "'Ë¥µ'"

我不知道為什么,但是 ascii 添加了一組額外的引號,您可以像這樣刪除它們:

asc_string.encode().decode( 'unicode-escape' )[1:-1]
# 'Ë¥µ'

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM