[英]is there a way to release the memory when do parallel computation in R
假设我想使用多个核运行R程序,如下所示
library(foreach)
library(doParallel)
no_cores <- detectCores() - 2
cl<-makeCluster(no_cores, outfile = "debug.txt")
registerDoParallel(cl)
result <- foreach(i = 10:100,
.combine = list,
.multicombine = TRUE) %dopar% {
set.seed(i)
a <- replicate(i, rnorm(20))
b <- replicate(i, rnorm(20))
list(x = a + b, y = a - b)
}
但是,我发现程序运行一段时间后内存使用量增加了。 我认为该程序不会释放旧对象。 所以我尝试使用gc()
作为
result <- foreach(i = 10:100,
.combine = list,
.multicombine = TRUE) %dopar% {
set.seed(i)
a <- replicate(i, rnorm(20))
b <- replicate(i, rnorm(20))
list(x = a + b, y = a - b)
gc()
}
它似乎有用,但我没有得到我想要的结果。 然后我尝试在每个循环之前收集垃圾,但似乎不起作用。
result <- foreach(i = 10:100,
.combine = list,
.multicombine = TRUE) %dopar% {
gc()
set.seed(i)
a <- replicate(i, rnorm(20))
b <- replicate(i, rnorm(20))
list(x = a + b, y = a - b)
}
有没有办法解决这个问题? 谢谢你们,任何建议将不胜感激。 PS。 这段代码只是为了重现,我的真实模拟程序比这复杂得多。 所以我不想太多地改变程序结构。
我认为你没有遇到任何所谓的“内存泄漏”,因为使用foreach
更多迭代只会创建一个更大的数组。 如果你的问题是gc()
是否真的有用,我建议你阅读Hadley Wickham的Advanced R的内存使用章节,其中他说:
尽管你可能已经在其他地方读到过,但是从来没有必要自己调用
gc()
无论如何,我试图找出代码中可能存在的内存泄漏,将其分为您描述的三个函数或可能性。
library(foreach)
library(doParallel)
f1 <- function(uu = 10:100){
no_cores <- detectCores() - 2
cl<-makeCluster(no_cores)
registerDoParallel(cl)
result1 <- foreach(i = uu, .combine = list,
.multicombine = TRUE) %dopar% {
set.seed(i)
a <- replicate(i, rnorm(20))
b <- replicate(i, rnorm(20))
gc()
return(list(x = a + b, y = a - b))
}
stopCluster(cl)
return(result1)
}
f2 <- function(uu = 10:100){
no_cores <- detectCores() - 2
cl<-makeCluster(no_cores)
registerDoParallel(cl)
result1 <- foreach(i = uu, .combine = list,
.multicombine = TRUE) %dopar% {
gc()
set.seed(i)
a <- replicate(i, rnorm(20))
b <- replicate(i, rnorm(20))
return(list(x = a + b, y = a - b))
}
stopCluster(cl)
return(result1)
}
f3 <- function(uu = 10:100){
no_cores <- detectCores() - 2
cl<-makeCluster(no_cores)
registerDoParallel(cl)
result1 <- foreach(i = uu, .combine = list, .multicombine = TRUE) %dopar% {
set.seed(i)
a <- replicate(i, rnorm(20))
b <- replicate(i, rnorm(20))
return(list(x = a + b, y = a - b))
}
stopCluster(cl)
return(result1)
}
library(pryr)
mem_used() # 214 MB
mem_change(NULL) # 864 B
gc() # whatever
mem_change({res1 <- f1(); rm(res1)}) # 2.11 kB
mem_change({res1 <- f2(); rm(res1)}) # 2.11 kB
mem_change({res1 <- f3(); rm(res1)}) # 2.11 kB
mem_change({res1 <- f1(10:250); rm(res1)}) # 2.11 kB
mem_change({res1 <- f2(10:250); rm(res1)}) # 2.11 kB
mem_change({res1 <- f3(10:250); rm(res1)}) # 2.11 kB
除此之外,我尝试使用标准输入(10:100)运行三个函数的profvis
,我得到了以下一般时间和记忆:
我不相信profvis
的记忆结果,但是时间。 一般来说,我不会使用gc()
来释放并行循环中的空间。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.