[英]How to identify only “not duplicated” rows
我有這種情況。 多個data.table“rbinded”。
library(data.table)
x <- data.table(id=c(1,2,3,4),dsp=c(5,6,7,8),status=c(FALSE,TRUE,FALSE,TRUE))
y <- data.table(id=c(1,2,3,4),dsp=c(6,6,7,8),status=c(FALSE,FALSE,FALSE,TRUE))
z <- data.table(id=c(1,2,3,4),dsp=c(5,6,9,8),status=c(FALSE,TRUE,FALSE,FALSE))
w <- data.table(id=c(1,2,3,4),dsp=c(5,6,7,NA),status=c(FALSE,TRUE,FALSE,TRUE))
setkey(x,id)
setkey(y,id)
setkey(z,id)
setkey(w,id)
Bigdt<-rbind(x,y,z,w)
我想只獲取不重復的行,如:
id dsp status
1 6 FALSE
2 6 FALSE
3 9 FALSE
4 8 FALSE
4 NA TRUE
所以我試過了
Resultdt<-Bigdt[!duplicated(Bigdt)]
但結果是:
id dsp status
1 5 FALSE
2 6 TRUE
3 7 FALSE
4 8 TRUE
與我的期望不符。 我嘗試了不同的方法(因為rbind不是強制性的),例如merge,join等,data.table包似乎可能是包含解決方案的那個......顯然。 有任何想法嗎?
你可以做
Bigdt[, .N, by=names(Bigdt)][N == 1L][, N := NULL][]
id dsp status
1: 1 6 FALSE
2: 2 6 FALSE
3: 3 9 FALSE
4: 4 8 FALSE
5: 4 NA TRUE
要查看它是如何工作的,只運行DT[][][][]
鏈的一部分:
Bigdt[, .N, by=names(Bigdt)]
Bigdt[, .N, by=names(Bigdt)][N == 1L]
Bigdt[, .N, by=names(Bigdt)][N == 1L][, N := NULL]
你也可以試試
Bigdt[!(duplicated(Bigdt)|duplicated(Bigdt, fromLast=TRUE))]
# id dsp status
#1: 1 6 FALSE
#2: 2 6 FALSE
#3: 3 9 FALSE
#4: 4 8 FALSE
#5: 4 NA TRUE
或者如果我們使用.SD
Bigdt[Bigdt[,!(duplicated(.SD)|duplicated(.SD, fromLast=TRUE))]]
或者另一個選項是按列名分組,使用.I
查找行索引並將數據集子集化
Bigdt[Bigdt[, .I[.N==1], by = names(Bigdt)]$V1]
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.