[英]Find shortest matches between two strings
我有一個很大的日志文件,我想提取兩個字符串之間的多行字符串: start
和end
。
以下是輸入文件中的inputfile
:
start spam
start rubbish
start wait for it...
profit!
here end
start garbage
start second match
win. end
所需的解決方案應打印:
start wait for it...
profit!
here end
start second match
win. end
我嘗試了一個簡單的正則表達式,但它返回了從start spam
的所有內容。 這應該怎么做?
編輯:關於現實生活計算復雜性的附加信息:
這個正則表達式應該符合你想要的:
(start((?!start).)*?end)
使用re.findall
方法和單行修飾符re.S
獲取多行字符串中的所有出現:
re.findall('(start((?!start).)*?end)', text, re.S)
在這里查看測試。
用代碼來做 - 基本狀態機:
open = False
tmp = []
for ln in fi:
if 'start' in ln:
if open:
tmp = []
else:
open = True
if open:
tmp.append(ln)
if 'end' in ln:
open = False
for x in tmp:
print x
tmp = []
這很棘手,因為默認情況下, re
模塊不查看重疊匹配。 較新版本的 Python 有一個新的regex
模塊,允許重疊匹配。
https://pypi.python.org/pypi/regex
你想使用類似的東西
regex.findall(pattern, string, overlapped=True)
如果您堅持使用 Python 2.x 或其他沒有regex
東西,仍然可以使用一些技巧。 一位聰明的人在這里解決了這個問題:
一旦你有所有可能的重疊(非貪婪,我想)匹配,只需確定哪個最短,哪個應該很容易。
你可以做(?s)start.*?(?=end|start)(?:end)?
,然后過濾掉所有不以“end”結尾的內容。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.