python 从字符串中删除 ctrl 字符

Question

我有一堆 XML 文件分批转储到磁盘。 当我试图赞美它们时，我发现一些控制字符插入到属性中。

它看起来像这样：

<root ^KIND="A"></root>

当它应该看起来像这样时：

<root KIND="A"></root>

现在在这种情况下，它很容易修复，只是一些正则表达式魔法：

import re
xml = re.sub(r'<([^>]*)\v([^>]*)>', r'<\1K\2>', xml)

但是后来需求发生了变化，我不得不将文档单独转储到磁盘上。 自然地，我在保存之前进行了替换，这样我就不会再遇到这个问题了。

你会看到很多这样的文件，数以百万计……

因此，我准备再次从中提取一些数据。

然而这一次我得到了一个新的错误：

<root KIND="A"><CLASSIFICATION></CLASSIFICATIO^N></root>

当它应该看起来像这样时：

<root KIND="A"><CLASSIFICATION></CLASSIFICATION></root>

我不确定为什么我不断收到这些错误，而不是为什么总是插入“ctrl-characters”。 到目前为止，这可能是纯粹的运气。

我在第一种情况下使用的正则表达式通常不会穿，^K 转换为垂直制表符，所以我可以匹配。 但是有什么可以过滤掉任何 ctrl 字符吗？

Answer 1

尝试使用翻译表通过 ctrl-Z 摆脱 ctrl-A：

in_chars = ''.join([chr(x) for x in range(1, 27)])
out_chars = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
tr_table = str.maketrans(in_chars, out_chars)

# pass all strings through the translate table:
x = input('Enter text: ')
print(x.translate(tr_table))

印刷：

Enter text: abc^Kdef
abcKdef

python 从字符串中删除 ctrl 字符

问题描述

1 个解决方案

解决方案1
0 已采纳 2020-05-13 12:30:16

python 从字符串中删除 ctrl 字符

问题描述

1 个解决方案

解决方案1 0 已采纳 2020-05-13 12:30:16

解决方案1
0 已采纳 2020-05-13 12:30:16