[英]Extract data of several gene sets from an RNAseq result summary file using R
[英]How do I call a data frame by Gene IDs from RNAseq data in R when gene names are duplicated?
我有一個.csv文件,該文件在第一列中包含基因名稱,在隨后的列中每個患者的每個基因的“每百萬轉錄本”計數。 已讀取了56,632個基因,並且看來有許多重復的基因ID。 我的數據矩陣示例如下:
Gene_ID UniIEC01 UniIEC02 UniIEC03 UniIEC04 UniIEC05
TSPAN6 1.45 1.30 1.53 1.35 1.50
TNMD -2.00 -2.00 -2.00 -2.00 0.29
DPM1 0.76 1.06 1.37 0.90 1.26
SCYL3 -0.43 0.67 0.43 0.71 0.23
C1orf112 -0.43 0.18 0.14 0.74 0.06
FGR -2.00 -2.00 -2.00 0.29 -2.00
CFH -2.00 -0.92 -2.00 -0.42 -2.00
我為“ read.table”嘗試了以下操作,並遇到以下問題:
(1)手動添加編號為“ row.names”的列,並為該列分配“ row.names”。 問題:然后無法按基因名稱調用數據。 我有一些200多個基因的清單,我想打電話給他們,要找到這些清單的每一行都太費力了。 (2)在讀取表時,我設置了具有正確格式的“ row.names = NULL”。 問題:當我嘗試使用以下方式調用數據時
"data.frame["TSPAN6":"TNMD",1:5]
我收到錯誤消息:“ NAs由強制引入”,除患者編號以外的所有單元格都返回為“ NA”。
有人可以幫我解決這個問題嗎?
我的最終目標是使用56,632個基因中的特定基因來創建熱圖。
謝謝!
Avantika
您可以通過以下方式獲得所需的基因:
gene_list <- c('CNTF', 'CFH', 'TSPAN6')
df[df$Gene_ID %in% gene_list, ]
heatmap.2()
從gplots
包是使熱圖的比較流行的方法之一。
話雖如此,您可能應該回過頭來找出為什么重復基因名稱的原因。 我猜每個基因有多個同種型。 在這種情況下,如果要在基因水平上進行定量,則需要從原始計數中重新計算每百萬的筆錄。 但這不是堆棧溢出的問題。 嘗試biostars.org詢問如何重新計算這些值。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.