[英]How can I extract DNA sequence using a Perl script from UCSC if I have their coordinates?
如果我有坐標,如何使用基因組瀏覽器(UCSC)的Perl腳本提取DNA序列?
您可以將DAS序列請求傳遞給Perl腳本,該腳本解析包含序列的XML元素。
例如,以下是UCSC的DAS服務器的curl
請求,丟棄了傳遞給parseSeq.pl
的標准錯誤:
$ curl http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=1:10000,10999 2>/dev/null | parseSeq.pl
curl
的輸出將是包含來自人類基因組的hg19
裝配的1000鹼基DNA序列的XML文檔。 請求從第一個染色體請求基數10000到10999(記住UCSC從0開始 )。 XML將包含一些對日志記錄和錯誤檢查有用的其他內容。
將XML傳遞到Perl腳本之后,您可以使用Perl的XML :: Simple模塊快速解析您想要的東西。
為了幫助您入門,您的parseSeq.pl
文件可能以以下內容開頭:
#!/usr/bin/perl -w
use strict;
use XML::Simple;
use Data::Dumper;
my $xml = new XML::Simple;
my $ref = $xml->XMLin('-');
print Dumper $ref;
這個輸出應該給你足夠的開始從$ref
拉出DNA序列。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.