多次匹配两个正则表达式模式

Question

我有这个字符串“Energy (kWh/m²)”，我想得到“Energy__KWh_m__”，意思是用下划线替换所有非单词字符和下标/上标字符。

我有用于替换非单词字符的正则表达式 -> re.sub("[\W]", "_", column_name)和用于替换上标数字的正则表达式 -> re.sub("[²³¹⁰ⁱ⁴⁵⁶⁷⁸⁹⁺⁻⁼⁽⁾ⁿ]", "", column_name)

我曾尝试将其组合成一个正则表达式，但我没有运气。 每次我尝试时，我只会得到部分替换，例如“Energy (KWh_m__”) - 使用正则表达式([²³¹⁰ⁱ⁴⁵⁶7⁷⁸⁹⁺⁻⁼⁽⁾ⁿ]).*(\W)

有什么帮助吗？ 谢谢！

Answer 1

要组合两个正则表达式，您可以使用| 符号，意思是"or" 。 以下是如何使用它的示例：

import re

column_name = "Energy (kWh/m²)"

pattern = re.compile(r"[\W]|[²³¹⁰ⁱ⁴⁵⁶⁷⁸⁹⁺⁻⁼⁽⁾ⁿ]")
result = pattern.sub("_", column_name)

print(result)

选择：

result = re.sub(r"[\W]|[²³¹⁰ⁱ⁴⁵⁶⁷⁸⁹⁺⁻⁼⁽⁾ⁿ]", "_", column_name)

输出：

Energy__kWh_m__

Answer 2

根据您当前的代码，如果您打算删除上标字符并用下划线替换所有其他非单词字符，您可以使用

re.sub(r'([²³¹⁰ⁱ⁴⁵⁶⁷⁸⁹⁺⁻⁼⁽⁾ⁿ])|\W', lambda x: '' if x.group(1) else '_', text)

如果您打算匹配所有非单词字符和您拥有的字符类中的字符，只需将两者合并：

re.sub(r'[\W²³¹⁰ⁱ⁴⁵⁶⁷⁸⁹⁺⁻⁼⁽⁾ⁿ]', '_', text)

请参阅第二个正则表达式演示。 请注意， \W与符号匹配，因此您甚至可以将其缩短为r'[\W²³¹⁰ⁱ⁴⁵⁶⁷⁸⁹ⁿ]' 。

请参阅Python 演示：

import re
text="Energy (kWh/m²)"
print(re.sub(r'([²³¹⁰ⁱ⁴⁵⁶⁷⁸⁹⁺⁻⁼⁽⁾ⁿ])|\W', lambda x: '' if x.group(1) else '_', text)) # => Energy__kWh_m_
print(re.sub(r'[\W²³¹⁰ⁱ⁴⁵⁶⁷⁸⁹⁺⁻⁼⁽⁾ⁿ]', '_', text)) # => Energy__kWh_m__

多次匹配两个正则表达式模式

问题描述

1 个解决方案

解决方案1
0 2022-12-21 09:38:01

解决方案2
0 已采纳 2022-12-21 09:38:23

多次匹配两个正则表达式模式

问题描述

1 个解决方案

解决方案1 0 2022-12-21 09:38:01

解决方案2 0 已采纳 2022-12-21 09:38:23

解决方案1
0 2022-12-21 09:38:01

解决方案2
0 已采纳 2022-12-21 09:38:23