用 OR 條件左連接兩個 R 數據幀

Question

問題

我有兩個數據框，我想在三個非數字變量上使用條件語句加入它們。 這是我想要實現的偽代碼版本。

Join DF1 and DF2 on DF1$A == DF2$A | DF1$A == DF2$B

數據集

這是創建兩個數據框的一些代碼。 variant_index是將用於使用left_join注釋input的數據框：

library(dplyr)
options(stringsAsFactors = FALSE)

set.seed(5)
variant_index <- data.frame(
  rsid   = rep(sapply(1:5, function(x) paste0(c("rs", sample(0:9, 8, replace = TRUE)), collapse = "")), each = 2),
  chrom  = rep(sample(1:22, 5), each = 2),
  ref    = rep(sample(c("A", "T", "C", "G"), 5, replace = TRUE), each = 2),
  alt    = sample(c("A", "T", "C", "G"), 10, replace = TRUE),
  eaf    = runif(10),
  stringAsFactors = FALSE
)
variant_index[1, "alt"] <- "T"
variant_index[8, "alt"] <- "A"

input <- variant_index[seq(1, 10, 2), ] %>%
  select(rsid, chrom)
input$assessed <- c("G", "C", "T", "A", "T")

我試過的

我想對input執行left_join以使用來自variant_index的eaf列進行注釋。 從input數據框中可以看出，它的assessed列可以與input$ref或input$alt匹配。 rsid和chrom列將始終匹配。

我知道我可以在left_join的by參數中指定多個列，但如果我理解正確，條件將始終是

input$assessed == variant_index$ref & input$assessed == variant_index$alt

而我想實現

input$assessed == variant_index$ref | input$assessed == variant_index$alt

可能的解決方案

可以像這樣獲得所需的 output：

input %>% 
  left_join(variant_index) %>% 
  filter(assessed == ref | assessed == alt)

但這對我來說似乎不是最好的解決方案，因為我可能會生成雙行，並且想將此連接應用於包含 100M+ 行的數據幀。 有更好的解決方案嗎？

Answer 1

復雜的連接在 SQL 中是直截了當的：

library(sqldf)

sqldf("select *
  from variant_index v
  join input i on i.assessed = v.ref or i.assessed = v.alt")

Answer 2

嘗試這個

庫（dbplyr）x1 <- memdb_frame（x = 1:5）x2 <- memdb_frame（x1 = 1:3，x2 = 字母[1:3]）x1 <- x1 %>% left_join（b，sql_on =“ax =b.x1 或 ax=b.x2") %>% show_query()

用 OR 條件左連接兩個 R 數據幀

問題描述

問題

數據集

我試過的

可能的解決方案

2 個解決方案

解決方案1
2 已采納 2019-10-18 13:05:52

解決方案2
0 2022-07-20 12:27:48

用 OR 條件左連接兩個 R 數據幀

問題描述

問題

數據集

我試過的

可能的解決方案

2 個解決方案

解決方案1 2 已采納 2019-10-18 13:05:52

解決方案2 0 2022-07-20 12:27:48

解決方案1
2 已采納 2019-10-18 13:05:52

解決方案2
0 2022-07-20 12:27:48