簡體   English   中英

查找兩個字符串之間的最短匹配

[英]Find shortest matches between two strings

我有一個很大的日志文件,我想提取兩個字符串之間的多行字符串: startend

以下是輸入文件中的inputfile

start spam
start rubbish
start wait for it...
    profit!
here end
start garbage
start second match
win. end

所需的解決方案應打印:

start wait for it...
    profit!
here end
start second match
win. end

我嘗試了一個簡單的正則表達式,但它返回了從start spam的所有內容。 這應該怎么做?

編輯:關於現實生活計算復雜性的附加信息

  • 實際文件大小:2GB
  • “開始”的出現次數:~ 12 M,均勻分布
  • 'end' 的出現次數:~800,接近文件末尾。

這個正則表達式應該符合你想要的:

(start((?!start).)*?end)

使用re.findall方法和單行修飾符re.S獲取多行字符串中的所有出現:

re.findall('(start((?!start).)*?end)', text, re.S)

在這里查看測試。

用代碼來做 - 基本狀態機:

open = False
tmp = []
for ln in fi:
    if 'start' in ln:
        if open:
            tmp = []
        else:
            open = True

    if open:
        tmp.append(ln)

    if 'end' in ln:
        open = False
        for x in tmp:
            print x
        tmp = []

這很棘手,因為默認情況下, re模塊不查看重疊匹配。 較新版本的 Python 有一個新的regex模塊,允許重疊匹配。

https://pypi.python.org/pypi/regex

你想使用類似的東西

regex.findall(pattern, string, overlapped=True)

如果您堅持使用 Python 2.x 或其他沒有regex東西,仍然可以使用一些技巧。 一位聰明的人在這里解決了這個問題:

Python正則表達式找到所有重疊的匹配項?

一旦你有所有可能的重疊(非貪婪,我想)匹配,只需確定哪個最短,哪個應該很容易。

你可以做(?s)start.*?(?=end|start)(?:end)? ,然后過濾掉所有不以“end”結尾的內容。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM