[英]Parsing unicode characters without backslash using python
有没有一种简单的方法来解析 unicode 字符,例如使用 python3 没有任何反斜杠字符的 u00e4。 我想用正确的字符替换 unicode 序列。 我有一个像下面这样的文本。
Hju00e4lper dig, Tru00e4ffa lu00e4kare, sjuksku00f6terskor och psykologer mm
我当然可以使用某种正则表达式匹配,但有没有更简单的方法来使用 python3 呢?
使用re.sub
和 function 将数字转换为字符:
>>> import re
>>> s='Hju00e4lper dig, Tru00e4ffa lu00e4kare, sjuksku00f6terskor och psykologer mm'
>>> re.sub('u([0-9a-f]{4})',lambda m: chr(int(m.group(1),16)),s)
'Hjälper dig, Träffa läkare, sjuksköterskor och psykologer mm'
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.