data.table：组内存在值的计算条件

Question

有一些数据

library(data.table); set.seed(42)
dat <- data.table(id=1:5, group=c(1,1,1,2,2), time=c(1,2,3,1,2), val=runif(5))
> dat
   id group time       val
1:  1     1    1 0.9148060
2:  2     1    2 0.9370754
3:  3     1    3 0.2861395
4:  4     2    1 0.8304476
5:  5     2    2 0.6417455

我想应用一些计算，比如val*2 ，将时间点 2 应用到那些没有第三时间点的组。 因此，预期的输出是

> res
   id group time       val
1:  1     1    1 0.9148060
2:  2     1    2 0.9370754
3:  3     1    3 0.2861395
4:  4     2    1 0.8304476
5:  5     2    2 1.2834910

其中第 2 组中时间 2 的值已更改。 我怀疑它是类似的东西

dat[,val:=val[max(time)==2]*2, by=group]

但这行不通。 因为我想将计算应用到与我要设置子集的时间点不同的时间点，所以我觉得这不能在i完成，但我不知道该怎么做。

Answer 1

根据我之前的回答（编辑前）和@Axeman 的回答，您可以执行以下操作

dat[, val2 := if(max(time) == 2) ifelse(time==2, 2*val, val) else val, group][]
##     id group time       val      val2
##  1:  1     1    1 0.9148060 0.9148060
##  2:  2     1    2 0.9370754 0.9370754
##  3:  3     1    3 0.2861395 0.2861395
##  4:  4     2    1 0.8304476 0.8304476
##  5:  5     2    2 0.6417455 1.2834910

并用您想要的任何函数替换2*val 。

Answer 2

像这样：

dat[, val := val*(1 + (time==2 & max(time)==2)), by=group]
##    id group time       val
## 1:  1     1    1 0.9148060
## 2:  2     1    2 0.9370754
## 3:  3     1    3 0.2861395
## 4:  4     2    1 0.8304476
## 5:  5     2    2 1.2834910

Answer 3

数据按时间排序，因此我们可以在每组的最后一行加入并在满足条件的情况下进行编辑：

dat[.(unique(group)), on=.(group), mult="last", 
  val := if (time == 2) val*2 else val
, by=.EACHI]

我们可以使用if / else因为mult="last" （和nomatch=NA ）保证time长度为 1。（这与处理每个组的全时间向量的其他两个答案形成对比。）

data.table：组内存在值的计算条件

问题描述

3 个解决方案

解决方案1
0 2019-11-28 18:10:28

解决方案2
0 2019-11-28 19:51:53

解决方案3
0 2019-12-02 22:43:26

data.table：组内存在值的计算条件

问题描述

3 个解决方案

解决方案1 0 2019-11-28 18:10:28

解决方案2 0 2019-11-28 19:51:53

解决方案3 0 2019-12-02 22:43:26

解决方案1
0 2019-11-28 18:10:28

解决方案2
0 2019-11-28 19:51:53

解决方案3
0 2019-12-02 22:43:26