繁体 English 中英

如何在RStudio中将对象从S3存储桶加载到Spark中？

[英]How to load objects from S3 bucket into Spark in RStudio?

原文 2018-07-30 09:39:53 1 1 r/ apache-spark/ amazon-s3/ sparklyr/ s3-bucket

S3存储桶中的对象大小为5.3 GB。 为了将对象转换成数据，我使用了get_object("link to bucket path") 。 但这会导致内存问题。

因此，我在RStudio中安装了Spark 2.3.0，并尝试将该对象直接加载到Spark中，但是将对象直接加载到spark中的命令未知。 library(sparklyr) library(dplyr) sc <- spark_connect(master = "local")

如果将对象转换为可读的数据类型（例如R中的data.frame / tbl），则将使用copy_to将数据从R传输到spark中，如下所示：

将数据复制到Spark

spark_tbl <- copy_to(spark_conn,data)

我想知道如何在spark内部转换对象？

相关链接将是

任何指导将不胜感激。

1 个解决方案

解。

我正在尝试从S3存储桶读取5.3 GB的csv文件。 但是由于R是单线程的，因此它带来了内存问题（IO异常）。

但是，解决方案是将sparklyr加载到R（库（sparklyr））中，因此现在将使用计算机中的所有内核。

get_object（“链接到存储桶路径”）可以替换为spark_read_csv（“链接到存储桶路径”）。 由于RStudio使用所有内核，因此没有内存问题。

另外，根据文件扩展名，您可以更改功能：spark_load_table，spark_read_jdbc，spark_read_json，spark_read_libsvm，spark_read_parquet，spark_read_source，spark_read_table，spark_read_text，spark_save_table，spark_write_csv，spark_write_jdbc，spark_write_json，spark_write_source

使用Rstudio的Amazon S3存储桶访问

[英]amazon S3 bucket access with Rstudio

如何在亚马逊网络服务上从Rstudio保存数据到S3

[英]How to save data to S3 from Rstudio on amazon web services

如何从公共Amazon s3存储桶中列出内容

[英]How to list content from a public Amazon s3 bucket

从R访问S3存储桶

[英]To access S3 bucket from R

如何使用 R 编程在 Sagemaker 中加载现有的 S3 存储桶？

[英]How do you load an existing S3 bucket in Sagemaker using R Programming?

如何将 csv 或 xlsx 保存到 S3 存储桶中？

[英]How to save csv or xlsx into S3 bucket?

在Windows环境下从Rstudio加载spark-csv

[英]Load spark-csv from Rstudio under Windows environment

使用来自 package aws.s3 的 R function put_object 将文件加载到特定的 S3 存储桶中

[英]Using R function put_object from package aws.s3 to load files into a specific S3 bucket

如何使用 R 从 AWS S3 存储桶读取镶木地板文件而不在本地下载？

[英]How to read parquet file from AWS S3 bucket using R without downloading it locally?

如何同时从S3下载多个对象？

[英]How can I download multiple objects from S3 simultaneously?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用Rstudio的Amazon S3存储桶访问如何在亚马逊网络服务上从Rstudio保存数据到S3 如何从公共Amazon s3存储桶中列出内容从R访问S3存储桶如何使用 R 编程在 Sagemaker 中加载现有的 S3 存储桶？如何将 csv 或 xlsx 保存到 S3 存储桶中？在Windows环境下从Rstudio加载spark-csv 使用来自 package aws.s3 的 R function put_object 将文件加载到特定的 S3 存储桶中如何使用 R 从 AWS S3 存储桶读取镶木地板文件而不在本地下载？如何同时从S3下载多个对象？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM