基因名稱重復時，如何從R中的RNAseq數據通過基因ID調用數據幀？

Question

我有一個.csv文件，該文件在第一列中包含基因名稱，在隨后的列中每個患者的每個基因的“每百萬轉錄本”計數。 已讀取了56,632個基因，並且看來有許多重復的基因ID。 我的數據矩陣示例如下：

Gene_ID     UniIEC01    UniIEC02    UniIEC03    UniIEC04    UniIEC05
TSPAN6        1.45        1.30        1.53        1.35        1.50
TNMD         -2.00       -2.00       -2.00       -2.00        0.29
DPM1          0.76        1.06        1.37        0.90        1.26
SCYL3        -0.43        0.67        0.43        0.71        0.23
C1orf112     -0.43        0.18        0.14        0.74        0.06
FGR          -2.00       -2.00       -2.00        0.29       -2.00
CFH          -2.00       -0.92       -2.00       -0.42       -2.00

我為“ read.table”嘗試了以下操作，並遇到以下問題：

（1）手動添加編號為“ row.names”的列，並為該列分配“ row.names”。 問題：然后無法按基因名稱調用數據。 我有一些200多個基因的清單，我想打電話給他們，要找到這些清單的每一行都太費力了。 （2）在讀取表時，我設置了具有正確格式的“ row.names = NULL”。 問題：當我嘗試使用以下方式調用數據時

"data.frame["TSPAN6":"TNMD",1:5]

我收到錯誤消息：“ NAs由強制引入”，除患者編號以外的所有單元格都返回為“ NA”。

有人可以幫我解決這個問題嗎？

我的最終目標是使用56,632個基因中的特定基因來創建熱圖。

謝謝！

Avantika

Answer 1

您可以通過以下方式獲得所需的基因：

gene_list <- c('CNTF', 'CFH', 'TSPAN6')
df[df$Gene_ID %in% gene_list, ]

heatmap.2()從gplots包是使熱圖的比較流行的方法之一。

話雖如此，您可能應該回過頭來找出為什么重復基因名稱的原因。 我猜每個基因有多個同種型。 在這種情況下，如果要在基因水平上進行定量，則需要從原始計數中重新計算每百萬的筆錄。 但這不是堆棧溢出的問題。 嘗試biostars.org詢問如何重新計算這些值。

基因名稱重復時，如何從R中的RNAseq數據通過基因ID調用數據幀？

問題描述

1 個解決方案

解決方案1
0 2015-10-23 20:00:03

基因名稱重復時，如何從R中的RNAseq數據通過基因ID調用數據幀？

問題描述

1 個解決方案

解決方案1 0 2015-10-23 20:00:03

解決方案1
0 2015-10-23 20:00:03