![](/img/trans.png)
[英]R foreach parallel processing with unexported functions (with C50 example)
[英]Parallel Processing Example in R
首先,我想说我是这个话题的新手。
其次,尽管我阅读了很多有关R中的并行处理的信息,但我仍然对此并不自信。
我只是在R中发明了模拟。那么有人可以用我发明的代码来帮助我理解并行处理吗? (我可以看到它是如何工作的)
我的代码如下(大随机数)
SimulateFn<-function(B,n){
M1=list()
for (i in 1:B){
M1[i]=(n^2)}
return(M1)}
SimulateFn(100000000,300000)
请你帮助我好吗?
首先,并行化是将一个任务划分为多个子处理器的过程,这些子任务由多个处理器或内核同时处理,并且可以独立或共享它们之间的某些依赖关系-后一种情况需要更多的计划和关注。
此过程有一些开销来处理子任务-例如将数据复制到每个处理器。 也就是说,并行化对于快速计算毫无用处。 在您的示例中,三个主要过程是索引( [
),赋值( <-
)和(快速)数学运算( ^
)。 并行化的开销可能大于执行子任务的时间,因此在这种情况下,并行化可能会导致性能变差!
尽管如此,R中的简单并行化还是相当容易的。 下面提供了使用doParallel软件包并行化任务的方法。 其他方法包括将包作为并行使用 。
library(doParallel)
## choose number of processors/cores
cl <- makeCluster(2)
registerDoParallel(cl)
## register elapsed time to evaluate code snippet
## %dopar% execute code in parallale
B <- 100000; n <- 300000
ptime <- system.time({
M1=list()
foreach(i=1:B) %dopar% {
M1[i]=(n^2)
}
})
## %do% execute sequentially
stime <- system.time({
M1=list()
foreach(i=1:B) %do% {
M1[i]=(n^2)
}
})
我的计算机(2核)上经过的时间分别为59.472和44.932。 显然,并行化没有任何改进:实际上,性能更差!
下面显示了一个更好的示例,其中主要任务在计算需求方面要昂贵得多:
x <- iris[which(iris[,5] != "setosa"), c(1,5)]
trials <- 10000
ptime <- system.time({
r <- foreach(icount(trials), .combine=cbind) %dopar% {
ind <- sample(100, 100, replace=TRUE)
result1 <- glm(x[ind,2]~x[ind,1], family=binomial(logit))
coefficients(result1)
}
})
stime <- system.time({
r <- foreach(icount(trials), .combine=cbind) %do% {
ind <- sample(100, 100, replace=TRUE)
result1 <- glm(x[ind,2]~x[ind,1], family=binomial(logit))
coefficients(result1)
}
})
经过时间分别为24.709和34.502:增长28%。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.