簡體   English   中英

基因名稱重復時,如何從R中的RNAseq數據通過基因ID調用數據幀?

[英]How do I call a data frame by Gene IDs from RNAseq data in R when gene names are duplicated?

我有一個.csv文件,該文件在第一列中包含基因名稱,在隨后的列中每個患者的每個基因的“每百萬轉錄本”計數。 已讀取了56,632個基因,並且看來有許多重復的基因ID。 我的數據矩陣示例如下:

Gene_ID     UniIEC01    UniIEC02    UniIEC03    UniIEC04    UniIEC05
TSPAN6        1.45        1.30        1.53        1.35        1.50
TNMD         -2.00       -2.00       -2.00       -2.00        0.29
DPM1          0.76        1.06        1.37        0.90        1.26
SCYL3        -0.43        0.67        0.43        0.71        0.23
C1orf112     -0.43        0.18        0.14        0.74        0.06
FGR          -2.00       -2.00       -2.00        0.29       -2.00
CFH          -2.00       -0.92       -2.00       -0.42       -2.00

我為“ read.table”嘗試了以下操作,並遇到以下問題:

(1)手動添加編號為“ row.names”的列,並為該列分配“ row.names”。 問題:然后無法按基因名稱調用數據。 我有一些200多個基因的清單,我想打電話給他們,要找到這些清單的每一行都太費力了。 (2)在讀取表時,我設置了具有正確格式的“ row.names = NULL”。 問題:當我嘗試使用以下方式調用數據時

"data.frame["TSPAN6":"TNMD",1:5] 

我收到錯誤消息:“ NAs由強制引入”,除患者編號以外的所有單元格都返回為“ NA”。

有人可以幫我解決這個問題嗎?

我的最終目標是使用56,632個基因中的特定基因來創建熱圖。

謝謝!

Avantika

您可以通過以下方式獲得所需的基因:

gene_list <- c('CNTF', 'CFH', 'TSPAN6')
df[df$Gene_ID %in% gene_list, ]

heatmap.2()gplots包是使熱圖的比較流行的方法之一。

話雖如此,您可能應該回過頭來找出為什么重復基因名稱的原因。 我猜每個基因有多個同種型。 在這種情況下,如果要在基因水平上進行定量,則需要從原始計數中重新計算每百萬的筆錄。 但這不是堆棧溢出的問題。 嘗試biostars.org詢問如何重新計算這些值。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM