在 R 中连接两个表（数据框）的最干净和最有效的方法是什么？

Question

我试图找出将数据从一个数据帧连接到另一个数据帧的最有效方法。 这个想法是我有一个主数据集（df）和一个辅助数据集（查找）。 我想将查找表中的数据附加到主数据集。

理论数据如下：

COLUMN_A <- 1:5
COLUMN_B <- 1:5
LOOKUP_COL <- letters[1:5]


df <- data.frame(COLUMN_A,COLUMN_B,LOOKUP_COL) 

  COLUMN_A COLUMN_B LOOKUP_COL
1        1        1          a
2        2        2          b
3        3        3          c
4        4        4          d
5        5        5          e

COLUMN_A <- 2*(1:5)
LOOKUP_COL <- letters[1:5]
SPARE_COL <- runif(5)

lookup <- data.frame(COLUMN_A,LOOKUP_COL,SPARE_COL) 

  COLUMN_A LOOKUP_COL SPARE_COL
1        1          a 0.6113499
2        2          b 0.3712987
3        3          c 0.3551038
4        4          d 0.6650248
5        5          e 0.2680611

到目前为止，我是这样做的：

results <- merge(df,lookup,by='LOOKUP_COL')

这为我提供了：

  LOOKUP_COL COLUMN_A.x COLUMN_B COLUMN_A.y SPARE_COL
1          a          1        1          1 0.6113499
2          b          2        2          2 0.3712987
3          c          3        3          3 0.3551038
4          d          4        4          4 0.6650248
5          e          5        5          5 0.2680611

所以看起来整个查找表已经合并到主数据中， SPARE_COL 是多余的 - 我如何控制哪些列被传递到主数据中？ 本质上，我试图了解如何在 R 中使用 excel vlookup 的功能。

谢谢

Answer 1

编辑：这个使用 SPARE_COL 作为保留而不是 COLUMN_A。 如果您在不同的数据框中具有相同名称的列，则带有索引的解决方案将要求您在将所有内容合并在一起之前在其中一个数据框中重命名它们。

单列

您可以通过仅将要合并的列传递给函数merge来完成此操作。 显然，您必须在选择中保留用于合并的列。 以您为例，这将变为：

keep <- c('LOOKUP_COL','SPARE_COL')
results <- merge(df,lookup[keep],by='LOOKUP_COL')

结果是

> results
  LOOKUP_COL COLUMN_A COLUMN_B  SPARE_COL
1          a        1        1 0.75670441
2          b        2        2 0.52122950
3          c        3        3 0.99338019
4          d        4        4 0.71904088
5          e        5        5 0.05405722

通过首先选择列，您可以更快地进行merge ，而且您不必费心在合并后查找所需的列。

如果速度是一个问题并且合并很简单，您可以通过使用索引手动进行合并来加快速度：

id <- match(df$LOOKUP_COL, lookup$LOOKUP_COL)
keep <- c('SPARE_COL')
results <- df
results[keep] <- lookup[id,keep, drop = FALSE]

这给出了相同的结果，并提供了很好的加速。

定时

在下面的测试中，对于两列情况，加速大约是 6 倍：

     test replications elapsed relative user.self sys.self user.child
1 code1()          100    6.30    6.117      6.30        0         NA
2 code2()          100    1.03    1.000      1.03        0         NA
  sys.child
1        NA
2        NA

测试代码：

N <- 10000

COLUMN_A <- 1:N
COLUMN_B <- 1:N
LOOKUP_COL <- sample(letters[3:7], N, replace = TRUE)
LOOKUP_2 <- sample(letters[10:14], N, replace = TRUE)


df <- data.frame(COLUMN_A,COLUMN_B,LOOKUP_COL, LOOKUP_2) 

COLUMN_A <- 2*(1:36)
LOOKUP_COL <- rep(letters[1:6], each = 6)
LOOKUP_2 <- rep(letters[10:15], times = 6)
SPARE_COL <- runif(36)

lookup <- data.frame(COLUMN_A,LOOKUP_COL, LOOKUP_2, SPARE_COL) 

code1 <- function(){
  keep <- c('LOOKUP_COL','SPARE_COL', 'LOOKUP_2')
  results <- merge(df,lookup[keep],by=c('LOOKUP_COL', 'LOOKUP_2'))
}

code2 <- function(){
  lookups <- c('LOOKUP_COL','LOOKUP_2')
  id <- match(interaction(df[lookups]), 
              interaction(lookup[lookups]))
  keep <- c('SPARE_COL')
  results <- df
  results[keep] <- lookup[id,keep, drop = FALSE]
}

require(rbenchmark)

benchmark(code1(),code2())

Answer 2

对于操作和合并数据帧，我建议包dplyr ：

library(dplyr)
df %>%
  left_join(lookup, by=c("LOOKUP_COL")) %>%
  select(LOOKUP_COL, COLUMN_A=COLUMN_A.x, COLUMN_B, COLUMN_C=COLUMN_A.y)

在 R 中连接两个表（数据框）的最干净和最有效的方法是什么？

问题描述

2 个解决方案

解决方案1
1 已采纳 2017-01-24 13:52:53

单列

更多栏目

定时

解决方案2
0 2017-01-24 16:50:10

在 R 中连接两个表（数据框）的最干净和最有效的方法是什么？

问题描述

2 个解决方案

解决方案1 1 已采纳 2017-01-24 13:52:53

单列

更多栏目

定时

解决方案2 0 2017-01-24 16:50:10

解决方案1
1 已采纳 2017-01-24 13:52:53

解决方案2
0 2017-01-24 16:50:10