如何僅識別“不重復”的行

Question

我有這種情況。 多個data.table“rbinded”。

library(data.table)
x <-  data.table(id=c(1,2,3,4),dsp=c(5,6,7,8),status=c(FALSE,TRUE,FALSE,TRUE))
y <-  data.table(id=c(1,2,3,4),dsp=c(6,6,7,8),status=c(FALSE,FALSE,FALSE,TRUE))
z <- data.table(id=c(1,2,3,4),dsp=c(5,6,9,8),status=c(FALSE,TRUE,FALSE,FALSE))
w <- data.table(id=c(1,2,3,4),dsp=c(5,6,7,NA),status=c(FALSE,TRUE,FALSE,TRUE))
setkey(x,id)
setkey(y,id)
setkey(z,id)
setkey(w,id)
Bigdt<-rbind(x,y,z,w)

我想只獲取不重復的行，如：

id  dsp status
1   6   FALSE
2   6   FALSE
3   9   FALSE
4   8   FALSE
4   NA  TRUE

所以我試過了

Resultdt<-Bigdt[!duplicated(Bigdt)]

但結果是：

id  dsp status
1   5   FALSE
2   6   TRUE
3   7   FALSE
4   8   TRUE

與我的期望不符。 我嘗試了不同的方法（因為rbind不是強制性的），例如merge，join等，data.table包似乎可能是包含解決方案的那個......顯然。 有任何想法嗎？

Answer 1

你可以做

Bigdt[, .N, by=names(Bigdt)][N == 1L][, N := NULL][]

   id dsp status
1:  1   6  FALSE
2:  2   6  FALSE
3:  3   9  FALSE
4:  4   8  FALSE
5:  4  NA   TRUE

要查看它是如何工作的，只運行DT[][][][]鏈的一部分：

Bigdt[, .N, by=names(Bigdt)]
Bigdt[, .N, by=names(Bigdt)][N == 1L]
Bigdt[, .N, by=names(Bigdt)][N == 1L][, N := NULL]

Answer 2

你也可以試試

Bigdt[!(duplicated(Bigdt)|duplicated(Bigdt, fromLast=TRUE))]
#   id dsp status
#1:  1   6  FALSE
#2:  2   6  FALSE
#3:  3   9  FALSE
#4:  4   8  FALSE
#5:  4  NA   TRUE

或者如果我們使用.SD

Bigdt[Bigdt[,!(duplicated(.SD)|duplicated(.SD, fromLast=TRUE))]]

或者另一個選項是按列名分組，使用.I查找行索引並將數據集子集化

Bigdt[Bigdt[, .I[.N==1], by = names(Bigdt)]$V1]

如何僅識別“不重復”的行

問題描述

2 個解決方案

解決方案1
9 2016-05-27 15:10:13

解決方案2
3 2016-05-27 20:43:54

如何僅識別“不重復”的行

問題描述

2 個解決方案

解決方案1 9 2016-05-27 15:10:13

解決方案2 3 2016-05-27 20:43:54

解決方案1
9 2016-05-27 15:10:13

解決方案2
3 2016-05-27 20:43:54