[英]aggregating columns of data frame
我有一個data.frame如下:
>data
ID Orginal Modified
Sam_1 M K
Sam_1 K M
Sam_1 I J
Sam_1 M K
Sam_1 K M
Sam_2 K M
Sam_2 M K
Sam_3 J P
Sam_4 K M
Sam_4 M K
Sam_4 P J
我想計算每個樣本數量的時間M列中的“原始”在“修改”列中轉換為K而“K”在“修改”列中將“原始”列轉換為“M”並在制表符分隔文本中報告文件如下:
>newdata
ID M_to_K_counts K_to_M_counts
Sam_1 2 2
Sam_2 1 1
Sam_3 0 0
Sam_4 1 1
我嘗試了以下代碼,但失敗了:
counts=function()
{
for(i in 1:dim(rnaseqmut)[1])
{
mk_counts=0
km_counts=0
if(data$Original[i]=='M' & data$Modified[i]== 'K')
{
mk_counts=mk_counts+1
}
if(data$Original[i]=='K' & data$Modified[i]== 'M')
{
km_counts=km_counts+1
}
}
print(mk_counts)
print(km_counts)
}
我怎樣才能達到我想要的格式。
一種選擇是使用data.table
。 將'data.frame'轉換為'data.table'( setDT(data)
)。 通過“ID”列分組,我們得到'原始'的'M'和'Modified'('MtoKcount')的'K'元素的sum
,類似地通過反向得到'KtoMcount'。
library(data.table)
setDT(data)[, list(MtoKcount=sum(Orginal=='M' & Modified=='K'),
KtoMcount = sum(Orginal=='K' & Modified=='M')), by = ID]
# ID MtoKcount KtoMcount
#1: Sam_1 2 2
#2: Sam_2 1 1
#3: Sam_3 0 0
#4: Sam_4 1 1
另一種選擇是來自base R
table
。 我們paste
“ID”列以外的列( do.call(paste0, data[-1])
)並使用table
獲取頻率計數。 然后,我們將只有'KM'或'MK'作為列名的表輸出('tbl')進行子集化
tbl <- table(data$ID,do.call(paste0, data[-1]))[,c('KM', 'MK')]
tbl
# KM MK
#Sam_1 2 2
#Sam_2 1 1
#Sam_3 0 0
#Sam_4 1 1
正如評論中提到的@ user295691,我們可以在paste
更改列名。
tbl <- with(data, table(ID, paste0(Orginal, "_to_", Modified,"_counts")))
tbl[,c('K_to_M_counts', 'M_to_K_counts')]
data <- structure(list(ID = c("Sam_1", "Sam_1", "Sam_1", "Sam_1",
"Sam_1",
"Sam_2", "Sam_2", "Sam_3", "Sam_4", "Sam_4", "Sam_4"), Orginal = c("M",
"K", "I", "M", "K", "K", "M", "J", "K", "M", "P"), Modified = c("K",
"M", "J", "K", "M", "M", "K", "P", "M", "K", "J")), .Names = c("ID",
"Orginal", "Modified"), class = "data.frame", row.names = c(NA,
-11L))
基礎R使用xtabs
。 期望的形狀/子集需要轉置和擺弄容器類型類。
d<-as.matrix(ftable(xtabs(Count~Orginal+Modified+ID,transform(data,Count=1))))
as.data.frame(t(d))[,c("M_K","K_M")]
M_K K_M Sam_1 2 2 Sam_2 1 1 Sam_3 0 0 Sam_4 1 1
使用dplyr
x <- data.frame(ID = c(rep("Sam_1", 5), rep("Sam_2", 2), "Sam_3", rep("Sam_4", 3)),
Orginal = c("M", "K", "I", "M", "K", "K", "M", "J", "K", "M", "P"),
Modified = c("K", "M", "J", "K", "M", "M", "K", "P", "M", "K", "J"))
x %>%
group_by(ID) %>%
summarise(M_to_K_counts = length((Orginal == "M")[Modified == "K"]),
K_to_M_counts = length((Orginal == "K")[Modified == "M"]))
# Source: local data frame [4 x 3]
# ID M_to_K_counts K_to_M_counts
# 1 Sam_1 2 2
# 2 Sam_2 1 1
# 3 Sam_3 0 0
# 4 Sam_4 1 1
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.