如何使用SparkR的as.DataFrame（）将大型R data.frames加载到Spark中？

Question

我的目标是将大型R data.frame加载到Spark中。 data.frame的大小为500万。 行和7列的各种类型。 加载到R中后，此data.frame大约占用 200mb的内存。 但是，当我尝试使用as.DataFrame()函数将其加载到Spark中时，R会话将永远被占用，它已经运行了1个小时，因此我不得不取消该操作。

详细信息如下：

我正在创建以下数据集以在此示例中使用：

n=5e6 # set sample size

d <- data.frame(
    v1=base::sample(1:9,n,replace=TRUE), 
    v2=base::sample(1000:9000,n,replace=TRUE), 
    v3=seq(as.Date("2016-01-01"), as.Date("2016-12-31"), by = "day")[base::sample(1:365,n,replace=TRUE)],
    v4=LETTERS[base::sample(1:length(LETTERS),n,replace=TRUE)], 
    v5=base::sample(1000:9000,n,replace=TRUE)/1000, 
    v6=seq(ISOdate(2016,1,1), ISOdate(2018,1,1), "sec")[base::sample(1:63158401,n,replace=TRUE)],
    v7=c(TRUE,FALSE)[base::sample(1:2,n,replace=TRUE)]
)

上面创建了一个示例data.frame

大小，约200mb：

paste0("size: ", round(as.numeric(object.size(d))/1000000,1)," mb")

接下来，我创建一个Spark会话：

Sys.setenv(SPARK_HOME='C:\\soft\\spark-2.0.0-bin-hadoop2.7',HADOOP_HOME='C:\\soft\\hadoop')
.libPaths(c(file.path(Sys.getenv('SPARK_HOME'), 'R', 'lib'),.libPaths()))
Sys.setenv('SPARKR_SUBMIT_ARGS'='"sparkr-shell"')

library(SparkR)
library(rJava)
sparkR.session(enableHiveSupport = FALSE,master = "local[*]", sparkConfig = list(spark.driver.memory = "1g",spark.sql.warehouse.dir="C:\\soft\\hadoop\\bin"))

现在，我正在尝试将上面创建的data.frame加载到Spark中：

d_sd <- as.DataFrame(d)

上面的命令将永远运行。

我在做错什么吗？ 它可以与原始R data.frame中的列的class（）相关吗？ 我是否应该采用另一种方法将大型数据集从R加载到Spark中？ 如果是，请随时提出一些建议。

先感谢您。

PS：

我能够使用此方法在Spark中快速转换和操纵小型数据集。

以下是有关我的R会话和正在运行的OS的一些背景信息：

R版本3.2.5（2016-04-14）平台：x86_64-w64-mingw32 / x64（64位）运行在：Windows 7 x64（内部版本7601）Service Pack 1

我正在Windows 7 Professional（64位），8 GB RAM下运行Microsoft版本的R（革命）。 处理器：i5-2520M @ 2.50GHz

编辑2016-09-19：

谢谢Zeydy Ortiz和Mohit Bansal。 根据您的回答，我尝试了以下操作，但仍然面临相同的问题：

Sys.setenv(SPARK_HOME='C:\\soft\\spark-2.0.0-bin-hadoop2.7',HADOOP_HOME='C:\\soft\\hadoop')
.libPaths(c(file.path(Sys.getenv('SPARK_HOME'), 'R', 'lib'),.libPaths()))
Sys.setenv('SPARKR_SUBMIT_ARGS'='"sparkr-shell"')

library(SparkR)
library(rJava)
sparkR.session(enableHiveSupport = FALSE,master = "local[*]", sparkConfig = list(spark.driver.memory = "1g",spark.sql.warehouse.dir="C:\\soft\\hadoop\\bin"))


n=5e6 # set sample size

d_sd <- createDataFrame(sqlContext,data=data.frame(
        v1=base::sample(1:9,n,replace=TRUE), 
        v2=base::sample(1000:9000,n,replace=TRUE), 
        v3=seq(as.Date("2016-01-01"), as.Date("2016-12-31"), by = "day")[base::sample(1:365,n,replace=TRUE)],
        v4=LETTERS[base::sample(1:length(LETTERS),n,replace=TRUE)], 
        v5=base::sample(1000:9000,n,replace=TRUE)/1000, 
        v6=seq(ISOdate(2016,1,1), ISOdate(2018,1,1), "sec")[base::sample(1:63158401,n,replace=TRUE)],
        v7=c(TRUE,FALSE)[base::sample(1:2,n,replace=TRUE)]
    ))

将R df转换为Spark df的命令运行了几个小时。 不得不取消。 请协助。

编辑2016-12-14：

以上尝试使用Spark 1.6.1和R 3.2.0。 我最近使用Spark 2.0.2（最新版）和R 3.2.5进行了尝试，但遇到了同样的问题。

任何帮助将不胜感激。

Answer 1

这与内存限制有关，为什么您必须首先创建Base Dataframe并将其转换为Spark DataFrame？

您可以将两个步骤合而为一并获得结果：

Sys.setenv(SPARK_HOME='C:\\soft\\spark-2.0.0-bin-hadoop2.7',HADOOP_HOME='C:\\soft\\hadoop')
.libPaths(c(file.path(Sys.getenv('SPARK_HOME'), 'R', 'lib'),.libPaths()))
Sys.setenv('SPARKR_SUBMIT_ARGS'='"sparkr-shell"')

library(SparkR)
library(rJava)
sparkR.session(enableHiveSupport = FALSE,master = "local[*]", sparkConfig = list(spark.driver.memory = "1g",spark.sql.warehouse.dir="C:\\soft\\hadoop\\bin"))

然后，您可以加载您的SDF：

n=5e6 # set sample size

d_sd <- as.DataFrame(data.frame(
    v1=base::sample(1:9,n,replace=TRUE), 
    v2=base::sample(1000:9000,n,replace=TRUE), 
    v3=seq(as.Date("2016-01-01"), as.Date("2016-12-31"), by = "day")[base::sample(1:365,n,replace=TRUE)],
    v4=LETTERS[base::sample(1:length(LETTERS),n,replace=TRUE)], 
    v5=base::sample(1000:9000,n,replace=TRUE)/1000, 
    v6=seq(ISOdate(2016,1,1), ISOdate(2018,1,1), "sec")[base::sample(1:63158401,n,replace=TRUE)],
    v7=c(TRUE,FALSE)[base::sample(1:2,n,replace=TRUE)]
))

您还可以参考类似的问题：如何最好地处理将大型本地数据帧转换为SparkR数据帧？

Answer 2

在Spark 2.0.0中，使用createDataFrame(d)

如何使用SparkR的as.DataFrame（）将大型R data.frames加载到Spark中？

问题描述

2 个解决方案

解决方案1
2 2016-09-19 03:23:22

解决方案2
0 2016-09-19 03:27:26

如何使用SparkR的as.DataFrame（）将大型R data.frames加载到Spark中？

问题描述

2 个解决方案

解决方案1 2 2016-09-19 03:23:22

解决方案2 0 2016-09-19 03:27:26

解决方案1
2 2016-09-19 03:23:22

解决方案2
0 2016-09-19 03:27:26