合並兩個數據框並在R中創建多個列

Question

假設我們有兩個數據幀，如下所示：

df1 <- data.frame(Team1 = c("A","B","C"), Team2 = c("D","E","F"), Winner = c("A","E","F"))

df2 <- data.frame(Country = c("A","B","C","D","E","F"), Index = c(1,2,3,4,5,6))

我想要的是在df2中創建三個列作為Team1_index，Team2_index和Winner_index。

Team1 Team2 Winner Team1_index Team2_index Winner_index
A     D      A           1           4            1
B     E      E           2           5            5
C     F      F           3           6            6

我嘗試了很多方法，但是失敗了。 提示和建議！

Answer 1

如果只有少量的列，則可以使用示例中的match函數：

df1$Team1_index <- df2$Index[match(df1$Team1, df2$Country)]
df1$Team2_index <- df2$Index[match(df1$Team2, df2$Country)]
df1$Winner_index <- df2$Index[match(df1$Winner, df2$Country)]
df1

Answer 2

如果您有更多的專欄，您可能會尋找更系統的解決方案，但是如果確實只有三種情況，則應該這樣做：

library("tidyverse")
df1 <- data.frame(Team1 = c("A","B","C"), Team2 = c("D","E","F"), Winner = c("A","E","F"))
df2 <- data.frame(Country = c("A","B","C","D","E","F"), Index = c(1,2,3,4,5,6))

df1 %>% 
  left_join(df2 %>% rename(Team1 = Country), by = "Team1") %>% 
  rename(Team1_Index = Index) %>% 
  left_join(df2 %>% rename(Team2 = Country), by = "Team2") %>% 
  rename(Team2_Index = Index) %>%
  left_join(df2 %>% rename(Winner = Country), by = "Winner") %>% 
  rename(Winner_Index = Index) 
#> Warning: Column `Team1` joining factors with different levels, coercing to
#> character vector
#> Warning: Column `Team2` joining factors with different levels, coercing to
#> character vector
#> Warning: Column `Winner` joining factors with different levels, coercing to
#> character vector
#>   Team1 Team2 Winner Team1_Index Team2_Index Winner_Index
#> 1     A     D      A           1           4            1
#> 2     B     E      E           2           5            5
#> 3     C     F      F           3           6            6

您可以放心地忽略警告。

Answer 3

要獲取新列作為因素：

df1[paste0(colnames(df1),"_index")] <- lapply(df1,factor,df2$Country,df2$Index)
#   Team1 Team2 Winner Team1_index Team2_index Winner_index
# 1     A     D      A           1           4            1
# 2     B     E      E           2           5            5
# 3     C     F      F           3           6            6

要獲得新的數字列：

df1[paste0(colnames(df1),"_index")] <-
  lapply(df1,function(x) as.numeric(as.character(factor(x,df2$Country,df2$Index))))
#   Team1 Team2 Winner Team1_index Team2_index Winner_index
# 1     A     D      A           1           4            1
# 2     B     E      E           2           5            5
# 3     C     F      F           3           6            6

請注意，對於這種特定情況（索引從1遞增1），此較短的版本適用：

df1[paste0(colnames(df1),"_index")] <-
  lapply(df1,function(x) as.numeric(factor(x,df2$Country)))

Answer 4

這是另一個使用match和cbind 。

df3 <- as.matrix(df1)
colnames(df3) <- paste0(colnames(df3), "_index")

# match the positions
df3[] <- match(df3, df2$Country)
cbind(df1, df3)
#  Team1 Team2 Winner Team1_index Team2_index Winner_index
#1     A     D      A           1           4            1
#2     B     E      E           2           5            5
#3     C     F      F           3           6            6

df3創建為矩陣，即具有Dimensions屬性的向量，因此我們可以立即將其條目替換為match （向量）的結果，而無需為每一列重復代碼。

或一口氣

df1[paste0(colnames(df1), "_index")] <- match(as.matrix(df1), df2$Country)

但是請注意，這將忽略df2的index列。

感謝@Moody_Mudskipper，我們也可以將其寫為

df1[paste0(colnames(df1), "_index")] <- lapply(df1, function(x) df2$Index[match(x, df2$Country)])

Answer 5

我對data.table有一個幾乎解決方案，使用melt和dacst改變形狀

library(data.table)

df1 <- data.table(Team1 = c("A","B","C"), Team2 = c("D","E","F"), Winner = c("A","E","F")) 
df2 <- data.table(Country = c("A","B","C","D","E","F"), Index = c(1,2,3,4,5,6))

melt(data = df1 , id.vars = )
plouf <- merge(df2,melt(df1,measure = 1:2), by.x = "Country", by.y = "value")
plouf[,winneridx := Index[Country == Winner]]
dcast(plouf,Country+winneridx~variable,value.var = "Index")


   Country winneridx Team1 Team2
1:       A         1     1    NA
2:       B         5     2    NA
3:       C         6     3    NA
4:       D         1    NA     4
5:       E         5    NA     5
6:       F         6    NA     6

Answer 6

這基本上與giocomai的答案相同，只是使用purrr來幫助消除重復：

library(rlang)
library(dplyr)

getIndexCols <- function(df1, df2, colName){
     idxColName <- sym(paste0(colName, "_Index"))
     df1 %>% left_join(df2 %>% rename(!! sym(colName) := Country, !! idxColName := Index))
}


names(df1) %>% purrr::map(~ getIndexCols(df1, df2, .)) %>% reduce(~ left_join(.x, .y))

Answer 7

您可以使用chartr這將同時考慮“國家”列和“索引”列：

df3=as.matrix(setNames(df1,paste0(names(df1),"_index")))

cbind(df1,chartr(paste0(df2$Country,collapse=""),paste0(df2$Index,collapse=""),df3))

  Team1 Team2 Winner Team1_index Team2_index Winner_index
1     A     D      A           1           4            1
2     B     E      E           2           5            5
3     C     F      F           3           6            6

您也可以：

cbind(df1,do.call(chartr,c(as.list(sapply(unname(df2),paste,collapse="")),list(df3))))

  Team1 Team2 Winner Team1_index Team2_index Winner_index
1     A     D      A           1           4            1
2     B     E      E           2           5            5
3     C     F      F           3           6            6

合並兩個數據框並在R中創建多個列

問題描述

7 個解決方案

解決方案1
1 2018-06-18 19:17:42

解決方案2
1 2018-06-18 19:20:02

解決方案3
1 2018-06-18 22:15:05

解決方案4
0 2018-06-18 19:23:50

解決方案5
0 2018-06-18 19:33:09

解決方案6
0 2018-06-18 19:47:14

解決方案7
0 2018-06-18 19:52:13

合並兩個數據框並在R中創建多個列

問題描述

7 個解決方案

解決方案1 1 2018-06-18 19:17:42

解決方案2 1 2018-06-18 19:20:02

解決方案3 1 2018-06-18 22:15:05

解決方案4 0 2018-06-18 19:23:50

解決方案5 0 2018-06-18 19:33:09

解決方案6 0 2018-06-18 19:47:14

解決方案7 0 2018-06-18 19:52:13

解決方案1
1 2018-06-18 19:17:42

解決方案2
1 2018-06-18 19:20:02

解決方案3
1 2018-06-18 22:15:05

解決方案4
0 2018-06-18 19:23:50

解決方案5
0 2018-06-18 19:33:09

解決方案6
0 2018-06-18 19:47:14

解決方案7
0 2018-06-18 19:52:13