簡體   English   中英

使用 python 解析沒有反斜杠的 unicode 字符

[英]Parsing unicode characters without backslash using python

有沒有一種簡單的方法來解析 unicode 字符,例如使用 python3 沒有任何反斜杠字符的 u00e4。 我想用正確的字符替換 unicode 序列。 我有一個像下面這樣的文本。

Hju00e4lper dig, Tru00e4ffa lu00e4kare, sjuksku00f6terskor och psykologer mm

我當然可以使用某種正則表達式匹配,但有沒有更簡單的方法來使用 python3 呢?

使用re.sub和 function 將數字轉換為字符:

>>> import re
>>> s='Hju00e4lper dig, Tru00e4ffa lu00e4kare, sjuksku00f6terskor och psykologer mm'
>>> re.sub('u([0-9a-f]{4})',lambda m: chr(int(m.group(1),16)),s)
'Hjälper dig, Träffa läkare, sjuksköterskor och psykologer mm'

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM