带有“.*”的“re.sub”方法

Question

我正在使用 python re库并遇到以下行为。

>>> import re
>>> re.sub(pattern=".*", repl="r", string="hello")
'rr'

如您所见，对于模式.*和替换字符 ( r )， re.sub方法返回rr 。 但我期望结果为r因为.*会匹配整个字符串。 这是为什么？。 我还在 Go 中测试了相同的逻辑，但它返回了预期的结果。

package main

import (
    "fmt"
    "regexp"
)

func main() {
    re := regexp.MustCompile(`.*`)
    fmt.Println(re.ReplaceAllString("Hello", "r")) // Will print `r`
}

Answer 1

下面应该开始解释发生了什么：

>>> re.sub("x?", "_", "hello")
'_h_e_l_l_o_'

在字符串re.sub中的每个 position 尝试匹配x? . 它成功了，因为x? 可以匹配空字符串，并用_替换空字符串。

以类似的方式，在下面

>>> re.sub(".*", "r", "hello")
'rr'

我们有re.sub尝试匹配 position 0 中的.* ，成功并消耗了整个字符串。 然后它尝试在末尾匹配 position，成功（匹配空字符串）并再次将其替换为r 。 如果您不允许空匹配，“令人费解”的行为就会消失：

>>> re.sub(".+", "r", "hello")
'r'

在 Python 3.7 之前的版本中，如果re.sub消耗了整个字符串，它将不会再次尝试匹配末尾，而在 Python 3.7+ 中它会。 更具体地说，引用re.sub的文档：

在 3.7 版更改：当与先前的非空匹配相邻时，模式的空匹配将被替换。

Python 3.7+（行为一致）

>>> matches = lambda r, s: [m.span() for m in re.finditer(r, s)]
>>> matches("x?", "x")
[(0, 1), (1, 1)]
>>> matches("x?", "y")
[(0, 0), (1, 1)]
>>> re.sub("x?", "r", "x")
'rr'
>>> re.sub("x?", "r", "y")
'ryr

Python 3.6（不一致的行为）

>>> matches("x?", "x")
[(0, 1), (1, 1)]
>>> matches("x?", "y")
[(0, 0), (1, 1)]
>>> re.sub("x?", "r", "x")
'r'
>>> re.sub("x?", "r", "y")
'ryr'

带有“.*”的“re.sub”方法

问题描述

1 个解决方案

解决方案1
4 已采纳 2020-12-31 04:34:46

Python 3.7+（行为一致）

Python 3.6（不一致的行为）

带有“.*”的“re.sub”方法

问题描述

1 个解决方案

解决方案1 4 已采纳 2020-12-31 04:34:46

Python 3.7+（行为一致）

Python 3.6（不一致的行为）

解决方案1
4 已采纳 2020-12-31 04:34:46