R：如何将“变量”的子集广播到data.table中的单独列？

Question

我要转换的data table中有一个大数据集。 原始数据集是一个交叉表，在column_names中具有1到2级信息。 因此，我认为我需要melt所有内容，提取相关信息，然后将各个列重新投射回去。

这是我遇到障碍的地方。

以下是简化的模拟数据，显示了我要执行的操作：

从...来：

   ID1 ID2 X.Measure1 X.Measure2  Y.Measure1  Y.Measure2
1:   1   1 -0.6264538  0.4874291 -0.62124058  0.82122120
2:   2   2  0.1836433  0.7383247 -2.21469989  0.59390132
3:   3   1 -0.8356286  0.5757814  1.12493092  0.91897737
4:   1   2  1.5952808 -0.3053884 -0.04493361  0.78213630
5:   2   1  0.3295078  1.5117812 -0.01619026  0.07456498
6:   3   2 -0.8204684  0.3898432  0.94383621 -1.98935170

执行2个中间步骤：（i）将整数“ 1”和“ 2”提取到新列“ n”中； （ii）将“变量”重命名为“ Y.Measure”（如左下方所示）。

最终的形式是通过获得casting如下所示在右边的绿色附图中：

在此处输入图片说明

样例代码：

library( data.table )
library( reshape2 )
library( stringr )

set.seed(1)
DT <- data.table( ID1 = rep( c(1:3),2 ), ID2 = rep( c(1:2),3 ), 
                  X.Measure1 = rnorm(6),  X.Measure2 = rnorm(6),
                  Y.Measure1 = rnorm(6),  Y.Measure2 = rnorm(6)
                  )

Long_DT <- melt( DT, id = c( "ID1", "ID2" ) )
Long_DT[ , n := substr( Long_DT$variable, 10, 10 ) ]

Long_DT[ str_detect( Long_DT$variable, "Y.Measure." ), variable := "Y.Measure"  ]

问题：

但是，当我尝试使用带有subset参数的dcast时，得到了错误的结果：

> dcast.data.table ( Long_DT, ID1+ID2 ~ variable, subset = (variable=="Y.Measure") )

Aggregate function missing, defaulting to 'length'
   ID1 ID2 Y.Measure
1:   1   1         2
2:   1   2         2
3:   2   1         2
4:   2   2         2
5:   3   1         2
6:   3   2         2

我尝试使用谷歌搜索解决方案，但无济于事。 我想知道我的dcast函数是错误的还是我的方法一开始是错误的（即，有一种更简单的方法来实现我想要的功能）。

非常感激任何的帮助！ 谢谢阅读！

更新：

我在上面的dcast函数中发现了错误dcast上应该有'n'了：

dcast.data.table ( Long_DT, ID1+ID2+n ~ variable, subset = .(variable=="Y.Measure") )

结果将是：

> dcast.data.table ( Long_DT, ID1+ID2+n ~ variable, subset = .(variable=="Y.Measure") )
    ID1 ID2 n   Y.Measure
 1:   1   1 1 -0.62124058
 2:   1   1 2  0.82122120
 3:   1   2 1 -0.04493361
 4:   1   2 2  0.78213630
 5:   2   1 1 -0.01619026
 6:   2   1 2  0.07456498
 7:   2   2 1 -2.21469989
 8:   2   2 2  0.59390132
 9:   3   1 1  1.12493092
10:   3   1 2  0.91897737
11:   3   2 1  0.94383621
12:   3   2 2 -1.98935170
>

不幸的是，XMeasure1和XMeasure2也随subset消失了，所以这对我的整体原因没有帮助。

Answer 1

以下是我用akrun建议的dcast代码修改后的代码：

library( data.table )
library( reshape2 )
library( stringr )

set.seed(1)
DT <- data.table( ID1 = rep( c(1:3),2 ), ID2 = rep( c(1:2),3 ), 
                  X.Measure1 = rnorm(6),  X.Measure2 = rnorm(6),
                  Y.Measure1 = rnorm(6),  Y.Measure2 = rnorm(6)
                  )

Long_DT <- melt( DT, id = c( "ID1", "ID2" ) )
Long_DT[ , n := substr( Long_DT$variable, 10, 10 ) ]

Long_DT[ str_detect( Long_DT$variable, "Y.Measure." ), variable := "Y.Measure"  ]
dcast.data.table(Long_DT[, N:=1:.N, variable], ID1+ID2+N~variable, subset = (variable=="Y.Measure") )

结果：

    ID1 ID2  N   Y.Measure
 1:   1   1  1 -0.62124058
 2:   1   1  7  0.82122120
 3:   1   2  4 -0.04493361
 4:   1   2 10  0.78213630
 5:   2   1  5 -0.01619026
 6:   2   1 11  0.07456498
 7:   2   2  2 -2.21469989
 8:   2   2  8  0.59390132
 9:   3   1  3  1.12493092
10:   3   1  9  0.91897737
11:   3   2  6  0.94383621
12:   3   2 12 -1.98935170

Answer 2

我不确定这是否是您所期望的，但我只是将一个新功能推送到了melt.data.table ，该功能现在可以分解为多列。

您可以按照以下说明安装开发版本。 然后，您可以执行以下操作：

require(data.table) ## v1.9.5
melt(DT, id=1:2, measure=list(3:4, 5:6), 
       value.name = c("X.measure", "Y.measure"))

默认情况下， variable列中填充数字。 如果不希望如此，只需相应地更改变量列的级别即可。

HTH

R：如何将“变量”的子集广播到data.table中的单独列？

问题描述

2 个解决方案

解决方案1
1 2015-02-27 17:06:34

解决方案2
1 2015-02-28 07:41:00

R：如何将“变量”的子集广播到data.table中的单独列？

问题描述

2 个解决方案

解决方案1 1 2015-02-27 17:06:34

解决方案2 1 2015-02-28 07:41:00

解决方案1
1 2015-02-27 17:06:34

解决方案2
1 2015-02-28 07:41:00