我应该匹配某个模式重复项和一个可选模式的Python正则表达式在做什么？

Question

这是我正在尝试的：

import re

r = re.compile(r'(?P<label>(?:[^_]+)+)(_r(?P<repeat_num>\d+))?')

def main():
    s1 = 'abc_123'
    s2 = 'abc_123_r1'

    m1 = r.match(s1)
    m2 = r.match(s2)

    print(m1.groups())
    print(m2.groups())

if __name__ == "__main__":
    main()

我期待第一串s1匹配abc_123的label组没有为repeat_num 。

和我期待的第二串s2匹配abc_123为label的群体和“1” repeat_num 。

在两种情况下，实际结果均以abc停止。

Answer 1

似乎部分是由于[^_]位所致，该位匹配“除下划线外的任何字符”。

我无法立即找到一种能够正确捕获这些令牌的解决方案； 我强烈建议您使用RegExr来处理您的正则表达式，以便弄清楚如何正确匹配各个部分。

Answer 2

您的模式与abc和123输入字符串之间的_不匹配。 您需要修改第一个捕获组才能处理这些捕获组。

但是直接翻译可能会遇到困难，因为将最后一个_r1块与正常的额外块（如_123区分开来有点困难。 我认为下面的模式可以正确执行此操作，但是您应该仔细检查它是否始终符合您的期望：

(?P<label>[^_]+(?:_[^_]+)*?)(?:_r(?P<repeat_num>\d+))?

如果您始终在文本的第一部分中至少需要两个带下划线的分隔成组（例如abc_123 ，但绝不只是abc或123本身），则应替换*? 用+? 。

我应该匹配某个模式重复项和一个可选模式的Python正则表达式在做什么？

问题描述

2 个解决方案

解决方案1
0 2018-02-07 23:09:53

解决方案2
0 2018-02-07 23:15:33

我应该匹配某个模式重复项和一个可选模式的Python正则表达式在做什么？

问题描述

2 个解决方案

解决方案1 0 2018-02-07 23:09:53

解决方案2 0 2018-02-07 23:15:33

解决方案1
0 2018-02-07 23:09:53

解决方案2
0 2018-02-07 23:15:33