[英]Reshape long structured data.table into a wide structure using data.table functionality?
> library(data.table)
> A <- data.table(x = c(1,1,2,2), y = c(1,2,1,2), v = c(0.1,0.2,0.3,0.4))
> A
x y v
1: 1 1 0.1
2: 1 2 0.2
3: 2 1 0.3
4: 2 2 0.4
> B <- dcast(A, x~y)
Using v as value column: use value.var to override.
> B
x 1 2
1 1 0.1 0.2
2 2 0.3 0.4
显然,我可以使用包reshape2的fx dcast将data.table从long扩展为long。 但是data.table附带了一个重载的括号运算符,它提供了诸如“by”和“group”之类的参数,这让我想知道是否有可能使用它来实现它(对于data.table特定的功能)?
只是手册中的一个随机示例:
DT[,lapply(.SD,sum),by=x]
这看起来很棒 - 但我还没有完全理解它的用法。
我既没有找到方法,也没有找到这方面的例子,也许这是不可能的,也许它甚至不应该 - 所以,明确的“不,不可能,因为......”当然也是一个有效的答案。
我将选择一个不等组的例子,以便更容易说明一般情况:
A <- data.table(x=c(1,1,1,2,2), y=c(1,2,3,1,2), v=(1:5)/5)
> A
x y v
1: 1 1 0.2
2: 1 2 0.4
3: 1 3 0.6
4: 2 1 0.8
5: 2 2 1.0
第一步是使每组“x”的元素/条目数相同。 这里,对于x = 1,有3个y值,但对于x = 2,只有2个。 因此,我们必须首先用NA修复x = 2,y = 3。
setkey(A, x, y)
A[CJ(unique(x), unique(y))]
现在,为了使其格式化,我们应该按“x”分组并在v
上使用as.list
,如下所示:
out <- A[CJ(unique(x), unique(y))][, as.list(v), by=x]
x V1 V2 V3
1: 1 0.2 0.4 0.6
2: 2 0.8 1.0 NA
现在,您可以使用带有setnames
引用设置重新整形列的名称,如下所示:
setnames(out, c("x", as.character(unique(A$y)))
x 1 2 3
1: 1 0.2 0.4 0.6
2: 2 0.8 1.0 NA
使用dcast()
(现在是版本1.9.5的默认data.table
方法;早期版本使用dcast.data.table
),如
> dcast(A,x~y)
Using 'v' as value column. Use 'value.var' to override
x 1 2 3
1: 1 0.2 0.4 0.6
2: 2 0.8 1.0 NA
这很快并且不需要setnames()
。
当上例中的y
是具有字符级别的因子变量时,它也特别有用 - 例如'低','中','高' - 因为CJ()
可能不会返回带有变量的宽数据。 setnames()
期望,你最终可能会错误地标记你的数据。
(与Arun的学分)
A[, setattr(as.list(v), 'names', y), by=x]
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.