python re.sub，只替换部分匹配

Question

我是python的新手

我需要通过一个正则表达式匹配所有情况并进行替换。 这是一个示例子字符串 - >所需的结果：

<cross_sell id="123" sell_type="456"> --> <cross_sell>

我想在我的代码中这样做：

myString = re.sub(r'\<[A-Za-z0-9_]+(\s[A-Za-z0-9_="\s]+)', "", myString)

而不是在<cross_sell之后替换所有内容，它会替换所有内容并返回'>'

有没有办法让re.sub只替换捕获组而不是整个模式？

Answer 1

您可以使用替换组：

>>> my_string = '<cross_sell id="123" sell_type="456"> --> <cross_sell>'
>>> re.sub(r'(\<[A-Za-z0-9_]+)(\s[A-Za-z0-9_="\s]+)', r"\1", my_string)
'<cross_sell> --> <cross_sell>'

请注意，我将第一组（您要保留的组）放在括号中，然后通过在替换字符串中使用"\\1"修饰符（第一组）将其保留在输出中。

Answer 2

您可以使用组引用匹配第一个单词和否定字符类以匹配<>之间的其余字符串：

>>> s='<cross_sell id="123" sell_type="456">'
>>> re.sub(r'(\w+)[^>]+',r'\1',s)
'<cross_sell>'

\\w等于[A-Za-z0-9_] 。

Answer 3

由于输入数据是XML，因此最好使用XML解析器对其进行解析。

内置的xml.etree.ElementTree是一个选项：

>>> import xml.etree.ElementTree as ET
>>> data = '<cross_sell id="123" sell_type="456"></cross_sell>'
>>> cross_sell = ET.fromstring(data)
>>> cross_sell.attrib = {}
>>> ET.tostring(cross_sell)
'<cross_sell />'

lxml.etree是另一种选择。

Answer 4

下面的代码在python 3.6下测试，没有使用组..

test = '<cross_sell id="123" sell_type="456">'
resp = re.sub(r'\w+="\w+"' ,r'',test)
print (resp)

<cross_sell>

python re.sub，只替换部分匹配

问题描述

4 个解决方案

解决方案1
10 已采纳 2015-09-21 15:11:06

解决方案2
3 2015-09-21 15:11:03

解决方案3
1 2015-09-21 15:24:29

解决方案4
0 2017-06-01 03:25:49

python re.sub，只替换部分匹配

问题描述

4 个解决方案

解决方案1 10 已采纳 2015-09-21 15:11:06

解决方案2 3 2015-09-21 15:11:03

解决方案3 1 2015-09-21 15:24:29

解决方案4 0 2017-06-01 03:25:49

解决方案1
10 已采纳 2015-09-21 15:11:06

解决方案2
3 2015-09-21 15:11:03

解决方案3
1 2015-09-21 15:24:29

解决方案4
0 2017-06-01 03:25:49