查找两个字符串之间的最短匹配

Question

我有一个很大的日志文件，我想提取两个字符串之间的多行字符串： start和end 。

以下是输入文件中的inputfile ：

start spam
start rubbish
start wait for it...
    profit!
here end
start garbage
start second match
win. end

所需的解决方案应打印：

start wait for it...
    profit!
here end
start second match
win. end

我尝试了一个简单的正则表达式，但它返回了从start spam的所有内容。 这应该怎么做？

编辑：关于现实生活计算复杂性的附加信息：

实际文件大小：2GB
“开始”的出现次数：~ 12 M，均匀分布
'end' 的出现次数：~800，接近文件末尾。

Answer 1

这个正则表达式应该符合你想要的：

(start((?!start).)*?end)

使用re.findall方法和单行修饰符re.S获取多行字符串中的所有出现：

re.findall('(start((?!start).)*?end)', text, re.S)

在这里查看测试。

Answer 2

用代码来做 - 基本状态机：

open = False
tmp = []
for ln in fi:
    if 'start' in ln:
        if open:
            tmp = []
        else:
            open = True

    if open:
        tmp.append(ln)

    if 'end' in ln:
        open = False
        for x in tmp:
            print x
        tmp = []

Answer 3

这很棘手，因为默认情况下， re模块不查看重叠匹配。 较新版本的 Python 有一个新的regex模块，允许重叠匹配。

https://pypi.python.org/pypi/regex

你想使用类似的东西

regex.findall(pattern, string, overlapped=True)

如果您坚持使用 Python 2.x 或其他没有regex东西，仍然可以使用一些技巧。 一位聪明的人在这里解决了这个问题：

Python正则表达式找到所有重叠的匹配项？

一旦你有所有可能的重叠（非贪婪，我想）匹配，只需确定哪个最短，哪个应该很容易。

Answer 4

你可以做(?s)start.*?(?=end|start)(?:end)? ，然后过滤掉所有不以“end”结尾的内容。

查找两个字符串之间的最短匹配

问题描述

4 个解决方案

解决方案1
14 已采纳 2014-07-08 19:40:43

解决方案2
1 2014-07-08 19:49:42

解决方案3
0 2014-07-08 19:38:32

解决方案4
0 2014-07-08 19:42:12

查找两个字符串之间的最短匹配

问题描述

4 个解决方案

解决方案1 14 已采纳 2014-07-08 19:40:43

解决方案2 1 2014-07-08 19:49:42

解决方案3 0 2014-07-08 19:38:32

解决方案4 0 2014-07-08 19:42:12

解决方案1
14 已采纳 2014-07-08 19:40:43

解决方案2
1 2014-07-08 19:49:42

解决方案3
0 2014-07-08 19:38:32

解决方案4
0 2014-07-08 19:42:12