基於第二個數據集中的2個變量聯接（或合並）數據集

Question

我想基於第二個數據集的2個變量來聯接/合並兩個數據集。

用言語描述，我想基於變量1（ VAR1 ）進行VAR1 ，如果這導致NA與變量2（ VAR2 ） VAR2 。

這是一個示例，我對此的解決方案：

df_x <- data.frame(VAR0=c("A","P","C","D","Z"), stringsAsFactors = F)

df_y <- data.frame(VAR1=c("A","B","C","D","E"),
                   VAR2=c("A","F","T","D","Z"),
                   VAR3=c("YES", "YES", "NO", "MAYBE", "YES"),
                   stringsAsFactors = F)

require(dplyr)
# LEFT JOIN TWICE TO MEET BOTH CONDITIONS
lj_1 <- left_join(df_x, df_y, by=c("VAR0" = "VAR1"))
lj_2 <- left_join(df_x, df_y, by=c("VAR0" = "VAR2"))

# THEN REPLACE NAs FROM FIRST LEFT JOIN WITH VALUE FROM SECOND LEFT JOIN
ifelse(lj_1$VAR3 %in% NA, lj_2$VAR3, lj_1$VAR3)
# [1] "YES"   NA      "NO"    "MAYBE" "YES"

我想知道是否有更好的方法可以做到這一點？

Answer 1

我們可以在一個循環中進行left_join ，並通過在'VAR3'上應用coalesce reduce其reduce為單個vector

library(tidyverse)
map(paste0("VAR", 1:2), ~ 
  left_join(df_x, df_y, by = c("VAR0" = .x)) %>% 
       pull(VAR3)) %>% 
  reduce(coalesce)
#[1] "YES"   NA      "NO"    "MAYBE" "YES"

或使用base R

pmin(df_y$VAR3[match(df_x$VAR0, df_y$VAR1)], 
             df_y$VAR3[match(df_x$VAR0, df_y$VAR2)], na.rm = TRUE)
#[1] "YES"   NA      "NO"    "MAYBE" "YES"

為了避免使用df調用，請with

with(df_y, with(df_x, pmin(VAR3[match(VAR0, VAR1)], 
          VAR3[match(VAR0, VAR2)], na.rm = TRUE)))

基於第二個數據集中的2個變量聯接（或合並）數據集

問題描述

1 個解決方案

解決方案1
2 已采納 2018-10-19 20:07:28

基於第二個數據集中的2個變量聯接（或合並）數據集

問題描述

1 個解決方案

解決方案1 2 已采納 2018-10-19 20:07:28

解決方案1
2 已采納 2018-10-19 20:07:28