合並匹配A，B和* * C的數據幀？

Question

我有兩個這樣的數據幀：

set.seed(1)
df <- cbind(expand.grid(x=1:3, y=1:5), time=round(runif(15)*30))
to.merge <- data.frame(x=c(2, 2, 2, 3, 2),
                       y=c(1, 1, 1, 5, 4),
                       time=c(17, 12, 11.6, 22.5, 2),
                       val=letters[1:5],
                       stringsAsFactors=F)

我想合並到to.merge到df （使用all.x=T ），這樣：

df$x == to.merge$x AND
df$y == to.merge$y AND
abs(df$time - to.merge$time) <= 1 ; 在滿足多個to.merge的情況下，我們選擇最小化這個距離的那個。

我怎樣才能做到這一點？

所以我想要的結果是（這只是df ，並為匹配行添加了to.merge的相應value列）：

   x y time val
1  1 1    8  NA
2  2 1   11   c
3  3 1   17  NA
4  1 2   27  NA
5  2 2    6  NA
6  3 2   27  NA
7  1 3   28  NA
8  2 3   20  NA
9  3 3   19  NA
10 1 4    2  NA
11 2 4    6  NA
12 3 4    5  NA
13 1 5   21  NA
14 2 5   12  NA
15 3 5   23   d

to.merge在哪里：

  x y time val
1 2 1 17.0   a
2 2 1 12.0   b
3 2 1 11.6   c
4 3 5 22.5   d
5 2 4  2.0   e

注意 - （2,1,17，a）與df不匹配，因為對於（X，Y）=（2,1）， time 17與df$time 11的距離大於1。

另外， to.merge中有兩行滿足匹配df （ to.merge ）行的條件，但是'c'行被選中而不是'b'行，因為它的time最接近到11。

最后， to.merge中的行可能與df中的任何內容都不匹配。

一種工作方式是for循環，但是對於我的數據來說需要太長時間（ df有~12k行而to.merge有~250k行）

df$value <- NA
for (i in 1:nrow(df)) {
    row <- df[i, ]
    idx <- which(row$x == to.merge$x &
                 row$y == to.merge$y &
                 abs(row$time - to.merge$time) <= 1)
    if (length(idx)) {
        j <- idx[which.min(row$time - to.merge$time[idx])]
        df$val[i] <- to.merge$val[j]
    }
}

我覺得我可以以某種方式進行合並，例如：

to.merge$closest_time_in_df <- sapply(to.merge$time,
                                  function (tm) {
                                     dts <- abs(tm - df$time)
                                     # difference must be at most 1
                                     if (min(dts) <= 1) {
                                         df$time[which.min(dts)]
                                     } else {
                                         NA
                                     }
                                  })
merge(df, to.merge,
      by.x=c('x', 'y', 'time'),
      by.y=c('x', 'y', 'closest_time_in_df'),
      all.x=T)

但是這並沒有合並(2, 1, 11) to.merge$closest_time_in_df (2, 1, 11)行，因為（ to.merge$closest_time_in_df (2, 1, 11.5, c) to.merge$closest_time_in_df是12，但df中12的時間對應於（x，y）=（ 2,5）不是（2,1）因此合並失敗。

Answer 1

使用data.table和roll='nearest'或限制為1， roll = 1, rollends = c(TRUE,TRUE)

例如

library(data.table)
# create data.tables with the same key columns (x, y, time)
DT <- data.table(df, key = names(df))
tm <- data.table(to.merge, key = key(DT))

# use join syntax with roll = 'nearest'


tm[DT, roll='nearest']

#     x y time val
#  1: 1 1    8  NA
#  2: 1 2   27  NA
#  3: 1 3   28  NA
#  4: 1 4    2  NA
#  5: 1 5   21  NA
#  6: 2 1   11   c
#  7: 2 2    6  NA
#  8: 2 3   20  NA
#  9: 2 4    6   e
# 10: 2 5   12  NA
# 11: 3 1   17  NA
# 12: 3 2   27  NA
# 13: 3 3   19  NA
# 14: 3 4    5  NA
# 15: 3 5   23   d

你可以通過設置roll=-1和rollends = c(TRUE,TRUE)來限制你的自我前瞻和后退（1 rollends = c(TRUE,TRUE)

new <- tm[DT, roll=-1, rollends  =c(TRUE,TRUE)]
new
    x y time val
 1: 1 1    8  NA
 2: 1 2   27  NA
 3: 1 3   28  NA
 4: 1 4    2  NA
 5: 1 5   21  NA
 6: 2 1   11   c
 7: 2 2    6  NA
 8: 2 3   20  NA
 9: 2 4    6  NA
10: 2 5   12  NA
11: 3 1   17  NA
12: 3 2   27  NA
13: 3 3   19  NA
14: 3 4    5  NA
15: 3 5   23   d

或者你可以先滾動= 1，然后滾動= -1，然后合並結果（整理第二個滾動連接的val.1列）

new <- tm[DT, roll = 1][tm[DT,roll=-1]][is.na(val), val := ifelse(is.na(val.1),val,val.1)][,val.1 := NULL]
new
    x y time val
 1: 1 1    8  NA
 2: 1 2   27  NA
 3: 1 3   28  NA
 4: 1 4    2  NA
 5: 1 5   21  NA
 6: 2 1   11   c
 7: 2 2    6  NA
 8: 2 3   20  NA
 9: 2 4    6  NA
10: 2 5   12  NA
11: 3 1   17  NA
12: 3 2   27  NA
13: 3 3   19  NA
14: 3 4    5  NA
15: 3 5   23   d

Answer 2

使用merge幾次並aggregate一次，這是如何做到的。

set.seed(1)
df <- cbind(expand.grid(x = 1:3, y = 1:5), time = round(runif(15) * 30))
to.merge <- data.frame(x = c(2, 2, 2, 3, 2), y = c(1, 1, 1, 5, 4), time = c(17, 12, 11.6, 22.5, 2), val = letters[1:5], stringsAsFactors = F)

#Find rows that match by x and y
res <- merge(to.merge, df, by = c("x", "y"), all.x = TRUE)
res$dif <- abs(res$time.x - res$time.y)
res
##   x y time.x val time.y dif
## 1 2 1   17.0   a     11 6.0
## 2 2 1   12.0   b     11 1.0
## 3 2 1   11.6   c     11 0.6
## 4 2 4    2.0   e      6 4.0
## 5 3 5   22.5   d     23 0.5

#Find rows that need to be merged
res1 <- merge(aggregate(dif ~ x + y, data = res, FUN = min), res)
res1
##   x y dif time.x val time.y
## 1 2 1 0.6   11.6   c     11
## 2 2 4 4.0    2.0   e      6
## 3 3 5 0.5   22.5   d     23

#Finally merge the result back into df
final <- merge(df, res1[res1$dif <= 1, c("x", "y", "val")], all.x = TRUE)
final
##    x y time  val
## 1  1 1    8 <NA>
## 2  1 2   27 <NA>
## 3  1 3   28 <NA>
## 4  1 4    2 <NA>
## 5  1 5   21 <NA>
## 6  2 1   11    c
## 7  2 2    6 <NA>
## 8  2 3   20 <NA>
## 9  2 4    6 <NA>
## 10 2 5   12 <NA>
## 11 3 1   17 <NA>
## 12 3 2   27 <NA>
## 13 3 3   19 <NA>
## 14 3 4    5 <NA>
## 15 3 5   23    d

Answer 3

mnel的答案在data.table連接中使用roll = "nearest" ，但不限制為OP請求的+/- 1。 此外， MichaelChirico建議使用on參數。

這種方法使用

roll = "nearest" ，
通過引用更新，即無需復制，
setDT()將data.frame強制轉換為data.table而不進行復制（引入2014-02-27與v.1.9.2 of data.table ），
用於顯式設置密鑰的on參數（引入2015-09-19 with v.1.9.6）。

那么，下面的代碼

library(data.table)   # version 1.11.4 used
setDT(df)[setDT(to.merge), on  = .(x, y, time), roll = "nearest",
          val := replace(val, abs(x.time - i.time) > 1, NA)]
df

已更新df ：

  xy time val 1: 1 1 8 <NA> 2: 2 1 11 c 3: 3 1 17 <NA> 4: 1 2 27 <NA> 5: 2 2 6 <NA> 6: 3 2 27 <NA> 7: 1 3 28 <NA> 8: 2 3 20 <NA> 9: 3 3 19 <NA> 10: 1 4 2 <NA> 11: 2 4 6 <NA> 12: 3 4 5 <NA> 13: 1 5 21 <NA> 14: 2 5 12 <NA> 15: 3 5 23 d

請注意，行的順序沒有改變（與Chinmay Patil的答案形成對比）

如果不能更改df ，可以創建新的data.table

result <- setDT(to.merge)[setDT(df), on  = .(x, y, time), roll = "nearest",
                .(x, y, time, val = replace(val, abs(x.time - i.time) > 1, NA))]
result

返回與上面相同的結果。

合並匹配A，B和* * C的數據幀？

問題描述

3 個解決方案

解決方案1
14 2013-04-19 01:54:01

解決方案2
6 已采納 2013-04-19 02:26:34

解決方案3
0 2018-07-19 12:05:15

合並匹配A，B和* * C的數據幀？

問題描述

3 個解決方案

解決方案1 14 2013-04-19 01:54:01

解決方案2 6 已采納 2013-04-19 02:26:34

解決方案3 0 2018-07-19 12:05:15

解決方案1
14 2013-04-19 01:54:01

解決方案2
6 已采納 2013-04-19 02:26:34

解決方案3
0 2018-07-19 12:05:15