以有效的方式组合正则表达式 python

Question

设置

我动态创建一个正则表达式列表，即regex_list 。 列表中的每个正则表达式都肯定至少与应用的文本匹配。 列表中的某些正则表达式可能是相等的。

regex_list = []
for f in foo: # foo is a list of strings e.g. foo = ['foo1', 'foo2', 'foo1', ...]
    # f is a valid expression to be used inside the regex
    regex_list.append(f'[^.]*?{f}[^.]*\.')

regex = re.compile('|'.join(regex_list), flags=re.DOTALL)
result = re.findall(regex, text)

问题

自从

regex_list中的某些正则表达式可能等于
regex_list中的正则表达式与 OR 运算符组合在一起

对于列表中存在另一个副本的正则表达式，仅捕获文本中的第一个匹配项。

问题

一种解决方法可能是使用 for 循环单独应用每个正则表达式，但它非常慢。

有没有一种结合正则表达式并使它们尽可能匹配的好方法？

Answer 1

偶然发现使用re 模块在 for 循环中单独应用每个 regex 非常慢，而使用regex 模块却出奇的快。

以有效的方式组合正则表达式 python

问题描述

设置

问题

问题

1 个解决方案

解决方案1
0 已采纳 2021-04-22 12:34:08

以有效的方式组合正则表达式 python

问题描述

设置

问题

问题

1 个解决方案

解决方案1 0 已采纳 2021-04-22 12:34:08

解决方案1
0 已采纳 2021-04-22 12:34:08