python unicode 用空字符串替換反斜杠 u

Question

我正在清理 Pandas 數據框並遇到 unicode 字符串，里面有一個帶有反斜杠的u ，而不是我需要替換的，例如

u'\u2014'.replace('\u','')
Result: u'\u2014'

我嘗試將其編碼為utf-8然后對其進行解碼，但這沒有用，我覺得必須有更簡單的方法來解決這個問題。

熊貓代碼

merged['Rank World Bank'] = merged['Rank World Bank'].astype(str)

錯誤

UnicodeEncodeError: 'ascii' codec can't encode character u'\u2014' in position 0: ordinal not in range(128)

Answer 1

u'\—'實際上是- 。 這不是一個數字。 這是一個utf-8字符。 嘗試使用 print 關鍵字來打印它。 你會知道

這是 ipython 中的輸出：

In [4]: print("val = ", u'\u2014')
val =  —

根據您的評論，這是您做錯的地方“-”與“EM Dash”Unicode 字符不同（u'\—'）

所以，你應該做到以下幾點

print(u'\u2014'.replace("\u2014",""))

這會起作用

編輯：由於您使用的是 python 2.x，您必須使用 utf-8 對其進行編碼，如下所示

u'\u2014'.encode('utf-8').decode('utf-8').replace("-","")

Answer 2

是的，因為它將 '2014' 后跟 '\\u\u0026#39; 作為 unicode 字符串而不是字符串文字。

可以提供幫助的事情：

希望這可以幫助。