![](/img/trans.png)
[英]R Data.Table Mode Imputation First Record By Group
[英]using data.table to flag the first (or last) record in a group
给定sortkey,是否有data.table快捷方式复制SAS和SPSS中的first
和last
功能?
下面的行人方法标记了组的第一个记录。
鉴于data.table(我正逐渐熟悉)的优雅,我假设有一个使用self join& mult
的快捷方式,但我仍然想弄明白。
这是一个例子:
require(data.table)
set.seed(123)
n <- 17
DT <- data.table(x=sample(letters[1:3],n,replace=T),
y=sample(LETTERS[1:3],n,replace=T))
sortkey <- c("x","y")
setkeyv(DT,sortkey)
key <- paste(DT$x,DT$y,sep="-")
nw <- c( T , key[2:n]!=key[1:(n-1)] )
DT$first <- 1*nw
DT
以下是使用data.table
几个解决方案:
## Option 1 (cleaner solution, added 2016-11-29)
uDT <- unique(DT)
DT[, c("first","last"):=0L]
DT[uDT, first:=1L, mult="first"]
DT[uDT, last:=1L, mult="last"]
## Option 2 (original answer, retained for posterity)
DT <- cbind(DT, first=0L, last=0L)
DT[DT[unique(DT),,mult="first", which=TRUE], first:=1L]
DT[DT[unique(DT),,mult="last", which=TRUE], last:=1L]
head(DT)
# x y first last
# [1,] a A 1 1
# [2,] a B 1 1
# [3,] a C 1 0
# [4,] a C 0 1
# [5,] b A 1 1
# [6,] b B 1 1
很明显,每条线都挤满了很多。 但是,键构造如下,它返回每个组中第一个记录的行索引:
DT[unique(DT),,mult="first", which=TRUE]
# [1] 1 2 3 5 6 7 11 13 15
一种简单的方法是使用duplicated()
函数。 当应用于数据帧时,它产生一个向量为TRUE的向量,当且仅当在向下移动数据帧之前没有发生行值组合时。
DT$first <- !duplicated( DT[, list(x,y) ])
DT$last <- rev(!duplicated( DT[, list(rev(x),rev(y)) ]))
> DT
x y first last
[1,] a A TRUE TRUE
[2,] a B TRUE TRUE
[3,] a C TRUE FALSE
[4,] a C FALSE TRUE
[5,] b A TRUE TRUE
[6,] b B TRUE TRUE
[7,] b C TRUE FALSE
[8,] b C FALSE FALSE
[9,] b C FALSE FALSE
[10,] b C FALSE TRUE
[11,] c A TRUE FALSE
[12,] c A FALSE TRUE
[13,] c B TRUE FALSE
[14,] c B FALSE TRUE
[15,] c C TRUE FALSE
[16,] c C FALSE FALSE
[17,] c C FALSE TRUE
不使用duplicated()
另一种方法是:
DT[ unique(DT), list(first = c(1, rep(0,length(y)-1)),
last = c(rep(0,length(y)-1),1 )) ]
x y first last
[1,] a A 1 1
[2,] a B 1 1
[3,] a C 1 0
[4,] a C 0 1
[5,] b A 1 1
[6,] b B 1 1
[7,] b C 1 0
[8,] b C 0 0
[9,] b C 0 0
[10,] b C 0 1
[11,] c A 1 0
[12,] c A 0 1
[13,] c B 1 0
[14,] c B 0 1
[15,] c C 1 0
[16,] c C 0 0
[17,] c C 0 1
比Josh更简单的方法
unique(DT)
unique(DT,fromLast=TRUE]
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.