R中对数据帧的并行处理

Question

我有一个这样的数据框：

                      Open   High    Low  Close Volume
1998-09-08 10:32:00 106.44 106.44 106.44 106.44      1
1998-09-08 10:33:00 106.42 106.42 106.35 106.35 628225
1998-09-08 10:34:00 106.31 106.38 106.31 106.38 135840
1998-09-08 10:35:00 106.35 106.35 106.32 106.34 170010
1998-09-08 10:36:00 106.35 106.36 106.35 106.36 309560
1998-09-08 10:37:00 106.44 106.50 106.44 106.50 115540
1998-09-08 10:38:00 106.49 106.53 106.49 106.52 427620
1998-09-08 10:39:00 106.53 106.54 106.52 106.53 321350
1998-09-08 10:40:00 106.55 106.60 106.54 106.54 317647
1998-09-08 10:41:00 106.56 106.63 106.56 106.63 233901

我需要在并行处理中更改Open 。 我写了一个这样的函数：

parTest <- function(x){

          foreach(i = 1:nrow(x)) %dopar% {                   
                       x[i,1] <- i
                }
return(x)        
}

但是，当我调用此函数时，没有任何变化，它返回未更改的数据框。

zz <- parTest (x)
zz

当我使用简单的for loop它可以工作，但foreach不起作用！

我还使用了适当的包和核心设置：

library(foreach)
library(doParallel)
cl <- makeCluster(4)
registerDoParallel(cl)

谢谢你的帮助。

Answer 1

foreach将从代码块中获取返回值，并以某种方式将其组合。 在您的情况下，由于您未指定.combine参数，因此它将返回列表中的每个实例。 （第一段help(foreach)说这个。）

好的，那么代码块的每个实例化会发生什么？ 它从调用开始时开始查看data.frame（意味着第2行没有看到第1行中更改的data.frame等），更新此data.frame，然后返回“something”。

这个“东西”不是你认为应该的。 要查看此内容，请尝试使用类似(x[1,1] <- 1)手动更新data.frame; 这表明赋值的返回值是值“1”，而不是x的内容。 换句话说，赋值的返回值是赋值，而不是赋值的整个变量。

所以，在你的情况下， x[i,1] <- i默默地返回i ，所以foreach （你没有捕获的）子进程的返回值是1:nrow(x)的列表，对于您。 如果您从foreach分配结果并从foreach代码块显式返回它，您会看到这一点。

我认为你想要的是代码块返回已经调整过的特定行，然后在最后将它们组合成一个data.frame。 注意，如果你返回整个data.frame，那么foreach的返回将是data.frames的列表，而不是（我认为）你想要的。

有很多方法可以做到这一点，我将展示三个。 第一个工作正常，在管理data.frame方面更加文字化。

parTest <- function(x) {
    ret <- foreach(i = 1:nrow(x)) %dopar% {
        x[i,1] <- i
        x[i,,drop=FALSE]
    }
    do.call('rbind', ret)
}

如果您的data.frame相当大，请意识到您正在制作此data.frame的大量副本。 如果你只需要一行（我假设你的例子被设计为一个简单的MWE），那么这是不必要的。 您可以通过以下方式简化此操作：

parTest <- function(x) {
    foreach(i = 1:nrow(x), .combine=rbind) %dopar% {
        x[i,1] <- i
        x[i,,drop=FALSE]
    }
}

另一种技术，使用iterators包：

library(iterators)
parTest <- function(x) {
    foreach(df = iter(x, by='row'), .combine=rbind) %dopar% {
        df[,1] <- 1
        df
    }
}

在我看来，后一种技术更具可读性。 而且，如果你真的只关心一行，它可能比另一行表现得更快。

BTW：我假设你真的找得到的data.frame，没有专门针对在当前环境改变data.frame的副作用 。 使用%dopar%处理并行内容时，要意识到子进程无法查看或使用实际的调用环境。

R中对数据帧的并行处理

问题描述

1 个解决方案

解决方案1
7 已采纳 2015-04-23 23:02:31

R中对数据帧的并行处理

问题描述

1 个解决方案

解决方案1 7 已采纳 2015-04-23 23:02:31

解决方案1
7 已采纳 2015-04-23 23:02:31