使用過濾器在不同變量的數據框中進行提供

Question

我正在嘗試計算我的數據框中的幾個新變量。 以初始值為例：

說我有：

Dataset <- data.frame(time=rep(c(1990:1992),2),
           geo=c(rep("AT",3),rep("DE",3)),var1=c(1:6), var2=c(7:12))

        time    geo var1 var2
1       1990    AT  1    7
2       1991    AT  2    8
3       1992    AT  3    9
4       1990    DE  4   10
5       1991    DE  5   11
6       1992    DE  6   12

而且我要：

        time    geo  var1  var2  var1_1990  var1_1991  var2_1990 var2_1991
1       1990    AT   1     7      1          2          7         8
2       1991    AT   2     8      1          2          7         8
3       1992    AT   3     9      1          2          7         8
4       1990    DE   4     10     4          5          10        11
5       1991    DE   5     11     4          5          10        11
6       1992    DE   6     12     4          5          10        11

因此，時間和變量都在為新變量而變化。 這是我的嘗試：

intitialyears <- c(1990,1991)
intitialvars <- c("var1", "var2") 
# ideally, I want code where I only have to change these two vectors 
# and where it's possible to change their dimensions

for (i in initialyears){
lapply(initialvars,function(x){
rep(Dataset[time==i,x],each=length(unique(Dataset$time)))
})}

哪個運行沒有錯誤，但沒有產生任 我想在示例中分配變量名稱（例如“var1_1990”）並立即使新變量成為數據幀的一部分。 我也想避免for循環，但我不知道如何圍繞這個函數包裝兩個lapply。 我寧願讓函數使用兩個參數嗎？ apply函數沒有將結果帶入我的環境的問題是什么？ 我已經被困在這里一段時間了，所以我將不勝感激任何幫助！

ps：我有解決方案，通過組合無需應用和喜歡這樣的組合，但我試圖擺脫復制和粘貼：

Dataset$var1_1990 <- c(rep(Dataset$var1[which(Dataset$time==1990)],
                      each=length(unique(Dataset$time))))

Answer 1

這可以使用subset() ， reshape()和merge() ：

merge(Dataset,reshape(subset(Dataset,time%in%c(1990,1991)),dir='w',idvar='geo',sep='_'));
##   geo time var1 var2 var1_1990 var2_1990 var1_1991 var2_1991
## 1  AT 1990    1    7         1         7         2         8
## 2  AT 1991    2    8         1         7         2         8
## 3  AT 1992    3    9         1         7         2         8
## 4  DE 1990    4   10         4        10         5        11
## 5  DE 1991    5   11         4        10         5        11
## 6  DE 1992    6   12         4        10         5        11

列順序與您的問題不完全相同，但如果需要，您可以使用索引操作在事后修復。

Answer 2

這是一個data.table方法：

require(data.table)
dt <- as.data.table(Dataset)
in_cols = c("var1", "var2")
out_cols = do.call("paste", c(CJ(in_cols, unique(dt$time)), sep="_"))

dt[, (out_cols) := unlist(lapply(.SD, as.list), FALSE), by=geo, .SDcols=in_cols]

#    time geo var1 var2 var1_1990 var1_1991 var1_1992 var2_1990 var2_1991 var2_1992
# 1: 1990  AT    1    7         1         2         3         7         8         9
# 2: 1991  AT    2    8         1         2         3         7         8         9
# 3: 1992  AT    3    9         1         2         3         7         8         9
# 4: 1990  DE    4   10         4         5         6        10        11        12
# 5: 1991  DE    5   11         4         5         6        10        11        12
# 6: 1992  DE    6   12         4         5         6        10        11        12

這假設time變量對於每個geo值是相同的（並且以相同的順序）。

Answer 3

使用dplyr和tidyr並使用自定義函數嘗試以下操作：

數據

Dataset <- data.frame(time=rep(c(1990:1992),2),
             geo=c(rep("AT",3),rep("DE",3)),var1=c(1:6), var2=c(7:12))

碼

library(dplyr); library(tidyr)

intitialyears <- c(1990,1991)
intitialvars <- c("var1", "var2")

#create this function
myTranForm <- function(dataSet, varName, years){

  temp <- dataSet %>% select(time, geo, eval(parse(text=varName))) %>% 
            filter(time %in% years) %>% mutate(time=paste(varName, time, sep="_")) 

   names(temp)[names(temp) %in% varName] <- "someRandomStringForVariableName"
   temp <- temp %>% spread(time, someRandomStringForVariableName)
  return(temp)
}

#Then lapply on intitialvars using the custom function
DatasetList <- lapply(intitialvars, function(x) myTranForm(Dataset, x, intitialyears))

#and loop over the data frames in the list
for(i in 1:length(intitialvars)){
  Dataset <- left_join(Dataset, DatasetList[[i]])
}

Dataset

使用過濾器在不同變量的數據框中進行提供

問題描述

3 個解決方案

解決方案1
4 已采納 2015-04-29 13:37:10

解決方案2
2 2015-04-29 15:28:34

解決方案3
1 2015-04-29 14:22:00

使用過濾器在不同變量的數據框中進行提供

問題描述

3 個解決方案

解決方案1 4 已采納 2015-04-29 13:37:10

解決方案2 2 2015-04-29 15:28:34

解決方案3 1 2015-04-29 14:22:00

解決方案1
4 已采納 2015-04-29 13:37:10

解決方案2
2 2015-04-29 15:28:34

解決方案3
1 2015-04-29 14:22:00