R：根據另一個data.table有效地從data.table中選擇指定的行？

Question

我有一個名為dt的data.table，另一個名為sg的data.table，在這里，我想根據sg選擇dt的子集。 這意味着在dt ，所選行（colA和colB）都不應等於sg行（colA和colB）。 這是我所做的：

dt <- data.table(colA = c(1, 1, 1, 2, 2, 3, 3), colB = c(10, 10, 10, 20, 20, 30, 30), 
  colC = c("A", "I", "A", "A", "A", "I", "A"))
dt

sg <- data.table(colA = c(1, 3), colB = c(10, 30))
sg

dt2 <- paste(dt[, colA], dt[, colB], sep = "-")
sg2 <- paste(sg[, colA], sg[, colB], sep = "-")
dt[!(dt2 %in% sg2)]
# OR the following one
# dt[!((dt[, colA] %in% sg[, colA]) & (dt[, colB] %in% sg[, colB]))]
> dt
   colA colB colC
1:    1   10    A
2:    1   10    I
3:    1   10    A
4:    2   20    A
5:    2   20    A
6:    3   30    I
7:    3   30    A

> sg
    colA colB
1:    1   10
2:    3   30

> dt[!(dt2 %in% sg2)]
    colA colB colC
1:    2   20    A
2:    2   20    A

但是，當數據集很大時，粘貼操作會很慢，您能幫我設計出一種有效的方法來代替data.table嗎？

謝謝。

Answer 1

您可以使用主鍵進行適當的左聯接：

> setkey(dt, colA, colB)
> setkey(sg, colA, colB)
> dt[!sg]
   colA colB colC
1:    2   20    A
2:    2   20    A

這應該更加有效。

R：根據另一個data.table有效地從data.table中選擇指定的行？

問題描述

1 個解決方案

解決方案1
2 已采納 2015-02-18 01:38:16

R：根據另一個data.table有效地從data.table中選擇指定的行？

問題描述

1 個解決方案

解決方案1 2 已采納 2015-02-18 01:38:16

解決方案1
2 已采納 2015-02-18 01:38:16