查找兩個字符串之間的最短匹配

Question

我有一個很大的日志文件，我想提取兩個字符串之間的多行字符串： start和end 。

以下是輸入文件中的inputfile ：

start spam
start rubbish
start wait for it...
    profit!
here end
start garbage
start second match
win. end

所需的解決方案應打印：

start wait for it...
    profit!
here end
start second match
win. end

我嘗試了一個簡單的正則表達式，但它返回了從start spam的所有內容。 這應該怎么做？

編輯：關於現實生活計算復雜性的附加信息：

實際文件大小：2GB
“開始”的出現次數：~ 12 M，均勻分布
'end' 的出現次數：~800，接近文件末尾。

Answer 1

這個正則表達式應該符合你想要的：

(start((?!start).)*?end)

使用re.findall方法和單行修飾符re.S獲取多行字符串中的所有出現：

re.findall('(start((?!start).)*?end)', text, re.S)

在這里查看測試。

Answer 2

用代碼來做 - 基本狀態機：

open = False
tmp = []
for ln in fi:
    if 'start' in ln:
        if open:
            tmp = []
        else:
            open = True

    if open:
        tmp.append(ln)

    if 'end' in ln:
        open = False
        for x in tmp:
            print x
        tmp = []

Answer 3

這很棘手，因為默認情況下， re模塊不查看重疊匹配。 較新版本的 Python 有一個新的regex模塊，允許重疊匹配。

https://pypi.python.org/pypi/regex

你想使用類似的東西

regex.findall(pattern, string, overlapped=True)

如果您堅持使用 Python 2.x 或其他沒有regex東西，仍然可以使用一些技巧。 一位聰明的人在這里解決了這個問題：

Python正則表達式找到所有重疊的匹配項？

一旦你有所有可能的重疊（非貪婪，我想）匹配，只需確定哪個最短，哪個應該很容易。

Answer 4

你可以做(?s)start.*?(?=end|start)(?:end)? ，然后過濾掉所有不以“end”結尾的內容。

查找兩個字符串之間的最短匹配

問題描述

4 個解決方案

解決方案1
14 已采納 2014-07-08 19:40:43

解決方案2
1 2014-07-08 19:49:42

解決方案3
0 2014-07-08 19:38:32

解決方案4
0 2014-07-08 19:42:12

查找兩個字符串之間的最短匹配

問題描述

4 個解決方案

解決方案1 14 已采納 2014-07-08 19:40:43

解決方案2 1 2014-07-08 19:49:42

解決方案3 0 2014-07-08 19:38:32

解決方案4 0 2014-07-08 19:42:12

解決方案1
14 已采納 2014-07-08 19:40:43

解決方案2
1 2014-07-08 19:49:42

解決方案3
0 2014-07-08 19:38:32

解決方案4
0 2014-07-08 19:42:12