簡體   English   中英

如何在R中將基因名稱(hgnc_symbol)轉換為Ensemble ID? “ bioconductor-biomaRt”

[英]How can I convert gene names (hgnc_symbol) to Ensemble IDs in R? “bioconductor-biomaRt”

我有一個基因列表作為我的eset的行名,我想將它們轉換為Ensembl基因ID。 我在bioMart軟件包中使用了getGene,但是對於某些基因它兩次使用了相同的名稱! 這是我的代碼的一個小例子:

library (biomaRt)
rownames(eset)
[1] "EPC1"   "MYO3A"  "PARD3"  "ATRNL1" "GDF2"   "IL10RA" "GAD2"   "CCDC6"

getGene(rownames(eset),type='hgnc_symbol',mart)[c(1,9)]

# [1] is the hgnc_symbol to recheck the matched data
# [9] is the ensemble_gene_id

   hgnc_symbol ensembl_gene_id
    1      ATRNL1 ENSG00000107518
    2       CCDC6 ENSG00000108091
    3        EPC1 ENSG00000120616
    4        GAD2 ENSG00000136750
    5        GDF2 ENSG00000263761
    6      IL10RA ENSG00000110324
    7      IL10RA         LRG_151
    8       MYO3A ENSG00000095777
    9       PARD3 ENSG00000148498

如您所見,hgnc_symbol列中有兩個“ IL10RA”條目; 但行名(eset)中只有一個“ IL10RA”; 當我想將Ensembl_ID添加到fData(eset)時,這最終會導致問題! 我怎么解決這個問題? 得到這樣的結果:

 hgnc_symbol ensembl_gene_id
    1      ATRNL1 ENSG00000107518
    2       CCDC6 ENSG00000108091
    3        EPC1 ENSG00000120616
    4        GAD2 ENSG00000136750
    5        GDF2 ENSG00000263761
    6      IL10RA ENSG00000110324
    7       MYO3A ENSG00000095777
    8       PARD3 ENSG00000148498

提前致謝,

我在eset中找到了!duplicated的解決方案。 像這樣:

g_All <- getGene(id = rownames(eset)),type='hgnc_symbol',mart)
g_All <- g_All[!duplicated(g_All[,1]),]

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM