正則表達式匹配多行重復模式

Question

我有一個文件頭（標有“>”），然后在下一行輸入文字。 我需要捕獲標題中包含相同數字的組。 在下面的示例文本中，我想將前四行（兩個標頭都包含“ 4471”）打印到一個文件，並將后四行（標頭包含“ 4527”）打印到另一個文件。

>VUSY-4471
AAAGTAATTCAGGATGAAGAGAGACTGCT
>XFJG-4471
AATGTTATTCAAGATGAAGATAGGTTGCTGGCTGCA
>Ambtr-4527
GAGGAGCGGGTGATTGCCTTGGTCGTTGGTGGTGG
>Arath-4527
GAAGAGAGAGTGAATGTTCTTGTA

當在文本編輯器中測試時，以下正則表達式成功捕獲了文本組（請參見屏幕截圖），但是我似乎無法使其在python腳本中工作。 任何幫助將不勝感激！！

>.+?-(\d+)[\S\s]+>.+-\1\n.+

捕獲文本的示例

Answer 1

您可能會節省一些時間，以弄清如果要分解的內容，如何用正則表達式解決整個問題：讀兩行，根據第一行中的數字確定需要轉到的文件，然后繼續進行下一個配對，直到解析了整個文件。 這樣，您只需要一個非常簡單的正則表達式即可從第一行獲取數字： ^>.+?-(\\d+)$或什至是>.+-(\\d+)一次。

Answer 2

該正則表達式似乎過於復雜，因為它僅提取一串數字。 這是使用更簡單的正則表達式的解決方案

import re

pat = re.compile(r'(\d+)')

with open('infile.txt') as infile:
    for line in infile:
        num = pat.findall(line)[0]
        with open(digits+".txt", "a+") as f:
            f.write(line)
            f.write(next(infile))  # This assumes an even number of lines in the input file

正則表達式匹配多行重復模式

問題描述

2 個解決方案

解決方案1
0 2019-02-08 03:08:40

解決方案2
0 已采納 2019-02-08 03:09:03

正則表達式匹配多行重復模式

問題描述

2 個解決方案

解決方案1 0 2019-02-08 03:08:40

解決方案2 0 已采納 2019-02-08 03:09:03

解決方案1
0 2019-02-08 03:08:40

解決方案2
0 已采納 2019-02-08 03:09:03