[英]Parsing unicode characters without backslash using python
有沒有一種簡單的方法來解析 unicode 字符,例如使用 python3 沒有任何反斜杠字符的 u00e4。 我想用正確的字符替換 unicode 序列。 我有一個像下面這樣的文本。
Hju00e4lper dig, Tru00e4ffa lu00e4kare, sjuksku00f6terskor och psykologer mm
我當然可以使用某種正則表達式匹配,但有沒有更簡單的方法來使用 python3 呢?
使用re.sub
和 function 將數字轉換為字符:
>>> import re
>>> s='Hju00e4lper dig, Tru00e4ffa lu00e4kare, sjuksku00f6terskor och psykologer mm'
>>> re.sub('u([0-9a-f]{4})',lambda m: chr(int(m.group(1),16)),s)
'Hjälper dig, Träffa läkare, sjuksköterskor och psykologer mm'
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.