Python 多行正則表達式在每個時間戳后提取文本

Question

我有一個正在嘗試解析的日志文件。 每個日志在一行的開頭都有一個時間戳，格式YYY-MMM-DD HH:MM:SS.SSSSSS -0400:時區信息是可選的（我現在可以忽略）。 我可以很好地匹配這些，但不能匹配時間戳之后的日志，它可能立即在同一行或下一行開始，並且可能有多行長。 我對正則表達式很滿意，但我很少做多行正則表達式。

這是我嘗試過的似乎是壁櫥的東西

# finds the first timestamp, everything to end of file is the log
re.findall('\n(^\d{4}-[A-Za-z]{3}-\d{2} \d{2}:\d{2}:\d{2}.\d{6}).*?:(.*)', log, re.DOTALL)

# finds every timestamp, all logs are empty (obviously too un-greedy)
re.findall('\n(^\d{4}-[A-Za-z]{3}-\d{2} \d{2}:\d{2}:\d{2}.\d{6}).*?:(.*?)', log, re.DOTALL)

我只是不知道如何 go 獲取隨后的日志，但如果看到另一個時間戳就停止。

Answer 1

您可以使用后跟日期時間模式的換行符拆分內容：

re.split(r'\n(?=\d{4}-[A-Za-z]{3}-\d{2} \d{2}:\d{2}:\d{2}\.\d{6})', log)

細節

\n - 換行符
(?=\d{4}-[A-Za-z]{3}-\d{2} \d{2}:\d{2}:\d{2}\.\d{6}) - 正向前瞻，需要以下模式立即出現在當前位置的右側：
- \d{4}- - 四位數字和一個連字符
- [A-Za-z]{3}- - 三個字母和一個連字符
- \d{2} - 兩位數
- - 一個空間
- \d{2}: - 兩位數和:
- \d{2}:\d{2} - - 兩位數, : , 兩位數
- \. - 一個點（注意它必須被轉義）
- \d{6} - 六位數

Python 多行正則表達式在每個時間戳后提取文本

問題描述

1 個解決方案

解決方案1
1 已采納 2020-05-01 17:27:42

Python 多行正則表達式在每個時間戳后提取文本

問題描述

1 個解決方案

解決方案1 1 已采納 2020-05-01 17:27:42

解決方案1
1 已采納 2020-05-01 17:27:42