[英]Characters showing up in string, how to remove them with python
我有兩個看起來相同但不是的字符串。
$ more /tmp/1
'[FORM-15801]
$ more /tmp/2
'[FORM‑15801]
我在這里看到了人物。
$ sed -n l /tmp/1
'[FORM-15801]$
$ sed -n l /tmp/2
'[FORM\342\200\22115801]$
在 python 中,如何將 /tmp/2 的內容轉換為 /tmp/2 的樣子?
您可以使用unidecode
模塊。
從 PyPI 頁面:
Unidecode 提供的是一條中間道路:function
unidecode()
采用 Unicode 數據並嘗試用 ASCII 字符(即 0x00 和 0x7F 之間的普遍可顯示字符)來表示它,其中選擇了在兩個字符集之間映射時采取的折衷方案接近使用美式鍵盤的人的選擇。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.