如何從.vcf文件中刪除錯誤的制表符/換行符？

Question

我正在使用vcf文件。 我嘗試從該文件中提取信息，但是該文件的格式有誤。

在此文件中，有一列包含長字符串。 錯誤是，在此列的某些行中錯誤地放置了許多制表符和換行符。 因此，當我嘗試讀取此制表符分隔的文件時，所有列都被弄亂了。

我有一個解決方案，但是不知道如何在代碼中執行。 字符串是DNA，所以總是有ATCG。 基本上，如果可以在字符ATCG內查找許多制表符和換行符並將其刪除，則該文件將被修復：

ACTGCTGA \\ t \\ t \\ t \\ t \\ nCTGATCGA將變為：ACTGCTGACTGATCGA

因此，需要查看此文件，查找[ACTG]，后跟制表符或換行符，再查找更多的[ACTG]，然后將其替換為空。 任何想法如何做到這一點？

with open(file.vcf, 'r') as f:
    lines = [l for l in f if not l.startswith('##')]

Answer 1

這是使用正則表達式的一種方法：

首先在以下位置讀取文件：

import re

with open('file.vcf', 'r') as file:
    dnafile = file.read()

然后編寫一個包含更改的新文件：

with open('fileNew.vcf', 'w') as file:
    file.write(re.sub("(?<=[ACTG]{2})((\\t)*(\\n)*)(?=[ACTG]{2})", "", dnafile))