[英]Downloading DNA sequence data in R using entrez_fetch: cannot retrieve query
我正在嘗試使用entrez_fetch
從 NCBI 下載 DNA 序列數據。 使用以下代碼,我使用entrez_search
搜索我需要的序列 ID,然后嘗試下載 FASTA 格式的序列數據:
library(rentrez)
#Search for sequence ids
search <- entrez_search(db = "biosample",
term = "Escherichia coli[Organism] AND geo_loc_name=USA:WA[attr]",
retmax = 9999, use_history = T)
search$ids
length(search$ids)
search$web_history
#Download sequence data
ecoli_fasta <- entrez_fetch(db = "nuccore",
web_history = search$web_history,
rettype = "fasta")
當我這樣做時,出現以下錯誤:
Error: HTTP failure: 400
Cannot+retrieve+query+from+history
我不明白這意味着什么,谷歌搜索也沒有讓我找到答案。
我嘗試使用不同的 package ( ape
) 和 function read.GenBank
作為替代下載序列,但這種方法只能下載我需要的 12000 個序列中的大約 1000 個。 如果可能的話,我想使用entrez_fetch
- 有人對我有任何見解嗎?
這可能是一個開始。
另請注意,對基因組數據庫的查詢可能會返回大量數據,因此請務必限制您的查詢。
library(rentrez)
search <- entrez_search(db="nuccore",
term="Escherichia coli[Organism]",
use_history = T)
cat(entrez_fetch(db="nuccore",
web_history=search$web_history, rettype="fasta", retstart=24, retmax=100))
>pdb|7QQ3|I Chain I, 23S ribosomal RNA
NGTTAAGCGACTAAGCGTACACGGTGGATGCCCTGGCAGTCAGAGGCGATGAAGGACGTGCTAATCTGCG
ATAAGCGTCGGTAAGGTGATATGAACCGTTATAACCGGCGATTTCCGAATGGGGAAACCCAGTGTGTTTC
GACACACTATCATTAACTGAATCCATAGGTTAATGAGGCGAACCGGGGGAACTGAAACATCTAAGTACCC
CGAGGAAAAGAAATCAACCGAGATTCCCCCAGTAGCGGCGAGCGAACGGGGAGCAGCCCAGAGCCTGAAT
CAGTGTGTGTGTTAGTGGAAGCGTCTGGAAAGGCGCGCGATACAGGGTGACAGCCCCGTACACAAAAATG
CACATGCTGTGAGCTCGATGAGTAGGGCGGGACACGTGGTATCCTGTCTGAATATGGGGGGACCATCCTC
CAAGGCTAAATACTCCTGACTGACCGATAGTGAACCAGTACCGTGAGGGAAAGGCGAAAAGAACCCCGGC
...
使用循環循環遍歷序列,例如
for(i in seq(1, 300, 100)){
cat(entrez_fetch(db="nuccore",
web_history=search$web_history, rettype="fasta", retstart=i, retmax=100))
}
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.