数据表 - 在多个列上应用相同的函数以创建新的数据表列

Question

我正在使用data.table包。 我有一个表示用户在网站上的操作的数据表。 假设每个用户都可以访问某个网站，并对其执行多项操作。 我的原始数据表是操作（每一行都是一个操作），我想将这些信息聚合到一个新的数据表中，按用户访问分组（每次访问都有一个唯一的ID）。 有一些字段由同一访问的操作共享 - 例如 - 用户名，用户状态，访问号等。每次访问的至少一个操作包含此信息（不一定是所有操作））。 我想检索每次访问（=具有相同访问ID的操作组），此字段的值，并将其设置为访问新数据表中的访问。 例如，如果我有以下原始数据表：

VisitID     ActionNum    UserName   UserStatus    VisitNum   ActionType
aaaaaaa        1           John        Active        5           x
aaaaaaa        2                       Active                    y
aaaaaaa        3           John                      5           z
bbbbbbb        1                      NonActive                  w
bbbbbbb        2           Dan                       7           t

我想要一个访问数据表，如下所示：

VisitID  UserName   UserStatus   VisitNum
aaaaaaa   John       Active        5
bbbbbbb   Dan        NonActive     7

我创建了一个函数，它处理数据表的子集（只有访问的行）和一个字段，这个函数应该应用于几个字段（UserName，UserStatus，VisitNum）。

getGeneralField<- function(visitDT,field){
  vec = visitDT[,get(field)]
  return (unique(vec[vec != ""])[1])
}

问题是，当by = VisitID时，每次在.SD上应用此功能的试验会产生与我计划不同的东西......最好的方法是什么？ 我使用！=“”以避免空白单元格。

Answer 1

我们在.SDcols指定感兴趣的列，按“VisitID”分组，循环遍历.SDcols的列（ lapply(.SD, ... ））并获取第一个非空白元素

dt[, lapply(.SD, function(x) x[nzchar(x)][1]), by = VisitID, .SDcols = 3:5]

数据表 - 在多个列上应用相同的函数以创建新的数据表列

问题描述

1 个解决方案

解决方案1
5 已采纳 2016-10-06 02:59:55

数据表 - 在多个列上应用相同的函数以创建新的数据表列

问题描述

1 个解决方案

解决方案1 5 已采纳 2016-10-06 02:59:55

解决方案1
5 已采纳 2016-10-06 02:59:55