![](/img/trans.png)
[英]Biopython: How to avoid particular amino acid sequences from a protein so as to plot Ramachandran plot?
[英]BioPython: How to convert the amino acid alphabet to
在討論如何使用Bio.SeqIO.parse()導入序列數據時,BioPython食譜說明:
有一個可選的參數字母表來指定要使用的字母表。 這對於像FASTA這樣的文件格式很有用,否則Bio.SeqIO將默認為通用字母表。
如何添加此可選參數? 我有以下代碼:
from os.path import abspath
from Bio import SeqIO
handle = open(f_path, "rU")
records = list(SeqIO.parse(handle, "fasta"))
handle.close()
這將從UniProt數據庫導入大量FASTA文件。 問題是它在通用的SingleLetterAlphabet類中。 如何在SingleLetterAlphabet和ExtendedIUPACProtein之間進行轉換?
最終目標是在這些序列中搜索諸如GxxxG之類的主題。
像這樣:
# Import required alphabet
from Bio.Alphabet import IUPAC
# Pass imported alphabet as an argument for `SeqIO.parse`:
records = list(SeqIO.parse(handle, 'fasta', IUPAC.extended_protein))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.