如何通過 Python 中的 ASCII 字符串恢復 Unicode 字符串？

Question

在問我的問題之前，我想舉一個例子。

u_string = u'\xcb\xa5\xb5'
u_string
Out[79]: 'Ë¥µ'
asc_string = ascii(u_string)
asc_string
Out[81]: "'\\xcb\\xa5\\xb5'"

在這里，我終於得到了一個僅包含 ascii 字符的 ascii 字符串（asc_string）。

我的問題是，如果我只有 asc_string，如何將其轉換為原始的 u_string（Unicode 字符串）？

謝謝馬丁

Answer 1

對於這種情況，最簡單的完全正確的方法是ast.literal_eval ：

>>> import ast
>>> origversion = u'\xcb\xa5\xb5'  # Leading u is unnecessary on Python 3
>>> asciiform = ascii(origversion)
>>> origversion == ast.literal_eval(asciiform)
True

這樣做是因為使用ascii一個字符串添加引號和轉義符，以使包含字符串字面再現原始的字符串（它只是一個字符串repr ，但堅持的唯一ASCII字符repr ）; ast.literal_eval旨在解析正則repr文字的S（ASCII編碼或不），以產生生成的對象，在這種情況下一個字符串。

Answer 2

你可以這樣解碼：

asc_string.encode().decode( 'unicode-escape' )  
# "'Ë¥µ'"

我不知道為什么，但是 ascii 添加了一組額外的引號，您可以像這樣刪除它們：

asc_string.encode().decode( 'unicode-escape' )[1:-1]
# 'Ë¥µ'

如何通過 Python 中的 ASCII 字符串恢復 Unicode 字符串？

問題描述

2 個解決方案

解決方案1
2 已采納 2019-12-03 01:46:04

解決方案2
0 2019-12-03 01:32:42

如何通過 Python 中的 ASCII 字符串恢復 Unicode 字符串？

問題描述

2 個解決方案

解決方案1 2 已采納 2019-12-03 01:46:04

解決方案2 0 2019-12-03 01:32:42

解決方案1
2 已采納 2019-12-03 01:46:04

解決方案2
0 2019-12-03 01:32:42