繁体   English   中英

python 从字符串中删除 ctrl 字符

[英]python remove ctrl-character from string

我有一堆 XML 文件分批转储到磁盘。 当我试图赞美它们时,我发现一些控制字符插入到属性中。

它看起来像这样:

<root ^KIND="A"></root>

当它应该看起来像这样时:

<root KIND="A"></root>

现在在这种情况下,它很容易修复,只是一些正则表达式魔法:

import re
xml = re.sub(r'<([^>]*)\v([^>]*)>', r'<\1K\2>', xml)

但是后来需求发生了变化,我不得不将文档单独转储到磁盘上。 自然地,我在保存之前进行了替换,这样我就不会再遇到这个问题了。

你会看到很多这样的文件,数以百万计……

因此,我准备再次从中提取一些数据。

然而这一次我得到了一个新的错误:

<root KIND="A"><CLASSIFICATION></CLASSIFICATIO^N></root>

当它应该看起来像这样时:

<root KIND="A"><CLASSIFICATION></CLASSIFICATION></root>

我不确定为什么我不断收到这些错误,而不是为什么总是插入“ctrl-characters”。 到目前为止,这可能是纯粹的运气。

我在第一种情况下使用的正则表达式通常不会穿,^K 转换为垂直制表符,所以我可以匹配。 但是有什么可以过滤掉任何 ctrl 字符吗?

尝试使用翻译表通过 ctrl-Z 摆脱 ctrl-A:

in_chars = ''.join([chr(x) for x in range(1, 27)])
out_chars = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
tr_table = str.maketrans(in_chars, out_chars)

# pass all strings through the translate table:
x = input('Enter text: ')
print(x.translate(tr_table))

印刷:

Enter text: abc^Kdef
abcKdef

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM