繁体   English   中英

将转义的unicode序列转换为人类可读的格式

[英]convert escaped unicode sequence to human readable format

我一直在使用此python代码:

pattern = u'丨フ丨ノ一丨ノ丶フノ一ノ丨フ一一ノフフ丶'
result = [u'<span id="z_i_t2_bis" title="\u7ad6\u6298\u7ad6\u6487\u6a2a\u7ad6\u6487\u637a\u6298\u6487\u6a2a\u6487\u7ad6\u6298\u6a2a\u6a2a\u6487\u6298\u6298\u637a">\u4e28\u30d5\u4e28\u30ce\u4e00\u4e28\u30ce\u4e36\u30d5\u30ce\u4e00\u30ce\u4e28\u30d5\u4e00\u4e00\u30ce\u30d5\u30d5\u4e36</span>']

if pattern in result[0]:
    print('found')

但这很麻烦,而且并没有真正做到我想要的,这就是使逃脱的傻瓜变回可理解的东西,如这种模式。 是否有一些简单的unix工具或命令来快速有效地执行此任务?

似乎这是一个可行的方法 ,但我尝试了,但没有成功。

result = "\u4e28\u30d5\u4e28\u30ce\u4e00\u4e28\u30ce\u4e36\u30d5\u30ce\u4e00\u30ce\u4e28\u30d5\u4e00\u4e00\u30ce\u30d5\u30d5\u4e36"

result.decode('utf-8')

哪个生成错误: attribute error 'str' object has no attribute 'decode'

如果仅print(result)那么您将获得“ gobbledygook”,因为这就是Python在为您提供明确输出作为列表或元组元素时所使用的方式。 但是,如果直接打印字符串print(result[0]) ,它将尝试按原样打印自然字符。

如果你想给自己的字符转换为UTF-8,使用encode而不是decode encode将Unicode字符串转换为字节, decode根据字节生成Unicode字符串。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM