繁体   English   中英

在SparkR中使用CRAN包

[英]Using CRAN packages inside SparkR

如果我想在SparkR中使用像MXNet这样的标准R软件包,这可能吗? 可以在Spark分布式环境中使用标准CRAN包,而无需考虑本地与Spark Dataframe。 处理R和Spark中的大型数据集的策略是使用Spark数据帧,减少Dataframe,然后将其转换为本地data.frame以使用标准CRAN包吗? 还有其他我不了解的策略吗?

谢谢

可以在Spark分布式环境中使用标准CRAN包,而无需考虑本地与Spark Dataframe。

不,他们不能。

处理R和Spark中的大型数据集的策略是使用Spark数据帧,减少Dataframe,然后将其转换为本地data.frame

可悲的是,大部分时间这都是你做的。

还有其他我不了解的策略吗?

Spark 2.0中的dapplygapply函数可以将任意R代码应用于分区或组。

对于某些操作,您可以使用对本地R数据帧和Spark数据帧使用统一语法的包。 例如,如果您使用Sparklyr ,则dplyr可以将标准数据争用操作推送回Spark群集。 只有在需要本地操作时才会获取数据。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM