[英]How to remove erronous tabs/new line from .vcf file?
我正在使用vcf文件。 我嘗試從該文件中提取信息,但是該文件的格式有誤。
在此文件中,有一列包含長字符串。 錯誤是,在此列的某些行中錯誤地放置了許多制表符和換行符。 因此,當我嘗試讀取此制表符分隔的文件時,所有列都被弄亂了。
我有一個解決方案,但是不知道如何在代碼中執行。 字符串是DNA,所以總是有ATCG。 基本上,如果可以在字符ATCG內查找許多制表符和換行符並將其刪除,則該文件將被修復:
ACTGCTGA \\ t \\ t \\ t \\ t \\ nCTGATCGA將變為:ACTGCTGACTGATCGA
因此,需要查看此文件,查找[ACTG],后跟制表符或換行符,再查找更多的[ACTG],然后將其替換為空。 任何想法如何做到這一點?
with open(file.vcf, 'r') as f:
lines = [l for l in f if not l.startswith('##')]
這是使用正則表達式的一種方法:
首先在以下位置讀取文件:
import re
with open('file.vcf', 'r') as file:
dnafile = file.read()
然后編寫一個包含更改的新文件:
with open('fileNew.vcf', 'w') as file:
file.write(re.sub("(?<=[ACTG]{2})((\\t)*(\\n)*)(?=[ACTG]{2})", "", dnafile))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.