[英]Handling huge simulations in R
我编写了R程序,该程序生成长度为100万的随机向量。 我需要模拟一百万次。 在这100万次模拟中,我将使用50K个观察到的向量(以某种随机方式选择)作为样本。 因此,50K交叉1M是样本大小。 有没有办法处理R?
问题很少,有些解决方案不是很好。
First R无法在我的机器中存储如此庞大的矩阵。 它超出了RAM内存。 我调查了诸如bigmemory,ffbase等使用硬盘空间的软件包。 但是,如此巨大的数据可能具有TB的大小。 我的机器上有200GB硬盘可用。
即使可以存储,也存在运行时间问题。 该代码可能需要超过100小时的运行时间!
任何人都可以建议出路! 谢谢
这个答案确实介于评论和答案之间。 解决难题的简单方法是不使用如此庞大的数据集。 您很可能可以获取该数据的合理大小的代表性子集(例如,不超过几百MB),并以此方式训练模型。
如果您必须在具有数百万个观测值的实际数据集上使用生产中的模型,那么问题将不再与R有关。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.