从fasta文件的标题中解析特定字符串

Question

我希望从 fasta 头文件中获取生物体名称，我感兴趣的是从描述中提取OS=(Organism Name)时提取的名称。

快速头

>sp|Q8T8B9|ACMSD_CAEEL 2-amino-3-carboxymuconate-6-semialdehyde decarboxylase OS=Caenorhabditis elegans GN=acsd-1 PE=2 SV=1 MPICEFSATSKSRKIDVHAHVLPKNIPDFQEKFGYPGFVRLDHKEDGTTHMVKDGKLFRV VEPNCFDTETRIADMNRANVNVQCLSTVPVMFSYWAKPADTEIVARFVNDDLLAECQKFP GKEHIVLGTDYPFPLGEL EVGRVVEEYKPFSAKDREDLLWKNAVKMLDIDENLLFNKDF >sp|P34455|ACON_CAEEL Probable aconitate hydratase, mitochondrial OS=Caenorhabditis elegans GN=aco-2 PE=3 SV=2 MNSLLRLSHLAGPAHYRALHSSSSIWSKVAISKFEPKSYLPYEKLSQTVKIVKDRLKRPL TLSEKILYGHLDQPKTQDIERGVSYLRLRPDRVAMQDATAQMAMLQFISSGLPKTAVPST IHCDHLIEAQKGGAQDLARAKDLNKEVFNFLATAGSKYGVGFWKPGSGIIHQIILENYAF

获取 FastaHeader 的代码

Caenorhabditis elegans
Caenorhabditis elegans

电流输出：

 >sp|Q8T8B9|ACMSD_CAEEL 2-amino-3-carboxymuconate-6-semialdehyde decarboxylase OS=Caenorhabditis elegans GN=acsd-1 PE=2 SV=1 >sp|P34455|ACON_CAEEL Probable aconitate hydratase, mitochondrial OS=Caenorhabditis elegans GN=aco-2 PE=3 SV=2

期望输出：

 Caenorhabditis elegans Caenorhabditis elegans

Answer 1

您可以使用正则表达式搜索您的信息：

import re
example = "sp|P34455|ACON_CAEEL Probable aconitate hydratase, mitochondrial OS=Caenorhabditis elegans GN=aco-2 PE=3 SV=2"

start = re.search("OS", example).start()
result = example[start+3:].split("GN")[0].strip()
print(result)
>> Caenorhabditis elegans

此代码查找“OS =”之后的文本，直到“GN”并删除末尾的空格

从fasta文件的标题中解析特定字符串

问题描述

1 个解决方案

解决方案1
2 已采纳 2020-09-16 15:02:36

从fasta文件的标题中解析特定字符串

问题描述

1 个解决方案

解决方案1 2 已采纳 2020-09-16 15:02:36

解决方案1
2 已采纳 2020-09-16 15:02:36