正则表达式太慢需要优化

Question

我正在使用像“a.{1000000}b.{1000000}c”这样的正则表达式来对字符串进行模式匹配。 然而，这太慢了。 有一个更好的方法吗？ 我对 a、b 和 c 之间的东西不感兴趣，只要它们的间隙达到我指定的大小我就不关心其中的内容。 可以将其视为跳过 n 个字符。 检查索引也不适合我，我需要使用 C 中编写的一些内置方法。有什么建议吗？

提前致谢

Answer 1

如果您只需要验证字符串是否在给定模式中并且不关心提取 a、b 或 c，那么这将起作用：

(?=^a.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}b.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}.{50000}c$)

正则表达式量词的限制是65535 ，所以如果你需要一百万，那么你必须像我上面那样重复.{50000} 20 次。

现在你只需要制作 Python 代码，上面写着“如果正则表达式匹配则继续”

Regex101 需要 68 毫秒，所以我认为这是“快”的。

https://regex101.com/r/q6RgNJ/1

正则表达式太慢需要优化

问题描述

1 个解决方案

解决方案1
1 已采纳 2020-11-12 14:28:13

正则表达式太慢需要优化

问题描述

1 个解决方案

解决方案1 1 已采纳 2020-11-12 14:28:13

解决方案1
1 已采纳 2020-11-12 14:28:13