連接兩個具有相同列名的不完整數據表

Question

我有兩個不完整的 data.tables 具有相同的列名。

 dt1 <- data.table(id = c(1, 2, 3), v1 = c("w", "x", NA), v2 = c("a", NA, "c")) dt2 <- data.table(id = c(2, 3, 4), v1 = c(NA, "y", "z"), v2 = c("b", "c", NA))

它們看起來像這樣：

 dt1 id v1 v2 1: 1 wa 2: 2 x <NA> 3: 3 <NA> c

 > dt2 id v1 v2 1: 2 <NA> b 2: 3 y c 3: 4 z <NA>

有沒有辦法通過填寫缺失的信息來合並兩者？

這是我追求的結果：

 id v1 v2 1: 1 wa 2: 2 xb 3: 3 y c 4: 4 z <NA>

我嘗試了各種 data.table 連接、合並，但我要么重復列：

 > merge(dt1, + dt2, + by = "id", + all = TRUE) id v1.x v2.x v1.y v2.y 1: 1 wa <NA> <NA> 2: 2 x <NA> <NA> b 3: 3 <NA> c y c 4: 4 <NA> <NA> z <NA>

或重復的行：

 > merge(dt1, + dt2, + by = names(dt1), + all = TRUE) id v1 v2 1: 1 wa 2: 2 <NA> b 3: 2 x <NA> 4: 3 <NA> c 5: 3 y c 6: 4 z <NA>

兩個 data.tables 具有相同的列名。

Answer 1

您可以按 ID 分組並在省略 NA 后獲取唯一值，即

library(data.table) merge(dt1, dt2, all = TRUE)[, lapply(.SD, function(i)na.omit(unique(i))), by = id][] # id v1 v2 #1: 1 wa #2: 2 xb #3: 3 y c #4: 4 z <NA>

Answer 2

你也可以從 rbind() 開始：

 rbind(dt1, dt2)[, lapply(.SD, \(x) unique(x[.is,na(x)])): by = id] # id v1 v2 # <num> <char> <char> # 1: 1 wa # 2: 2 xb # 3: 3 y c # 4 4 z <NA>

Answer 3

首先full_join ，然后是group_by每個 id 並合並行：

 library(dplyr) library(tidyr) dt1 %>% full_join(dt2, by = c("id", "v1", "v2")) %>% group_by(id) %>% fill(starts_with('v'),.direction = 'updown') %>% slice(1) %>% ungroup

Output：

 # A tibble: 4 × 3 id v1 v2 <dbl> <chr> <chr> 1 1 wa 2 2 xb 3 3 y c 4 4 z NA

連接兩個具有相同列名的不完整數據表

問題描述

3 個解決方案

解決方案1
3 已采納 2022-07-04 09:52:52

解決方案2
3 2022-07-04 10:06:29

解決方案3
0 2022-07-04 10:12:18

連接兩個具有相同列名的不完整數據表

問題描述

3 個解決方案

解決方案1 3 已采納 2022-07-04 09:52:52

解決方案2 3 2022-07-04 10:06:29

解決方案3 0 2022-07-04 10:12:18

解決方案1
3 已采納 2022-07-04 09:52:52

解決方案2
3 2022-07-04 10:06:29

解決方案3
0 2022-07-04 10:12:18