繁体   English   中英

使用 python 解析没有反斜杠的 unicode 字符

[英]Parsing unicode characters without backslash using python

有没有一种简单的方法来解析 unicode 字符,例如使用 python3 没有任何反斜杠字符的 u00e4。 我想用正确的字符替换 unicode 序列。 我有一个像下面这样的文本。

Hju00e4lper dig, Tru00e4ffa lu00e4kare, sjuksku00f6terskor och psykologer mm

我当然可以使用某种正则表达式匹配,但有没有更简单的方法来使用 python3 呢?

使用re.sub和 function 将数字转换为字符:

>>> import re
>>> s='Hju00e4lper dig, Tru00e4ffa lu00e4kare, sjuksku00f6terskor och psykologer mm'
>>> re.sub('u([0-9a-f]{4})',lambda m: chr(int(m.group(1),16)),s)
'Hjälper dig, Träffa läkare, sjuksköterskor och psykologer mm'

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM