从S3读取大型csv文件到R

Question

我需要从S3分别向R或RStudio加载一个3 GB的csv文件，该文件包含大约1800万行和7列。 我从S3读取数据的代码通常是这样的：

library("aws.s3")
obj <-get_object("s3://myBucketName/aFolder/fileName.csv")  
csvcharobj <- rawToChar(obj)  
con <- textConnection(csvcharobj)  
data <- read.csv(file = con)

现在，文件比平时大得多，我收到一个错误

> csvcharobj <- rawToChar(obj)  
Error in rawToChar(obj) : long vectors not supported yet: raw.c:68

阅读这篇文章后，我了解到向量太长，但是在这种情况下如何对数据进行子集处理？ 还有其他建议如何处理从S3读取的较大文件？

Answer 1

您可以使用AWS Athena并将S3文件安装到athena并仅将选择性记录查询到R。下面将详细说明如何使用athena运行r。

https://aws.amazon.com/blogs/big-data/running-r-on-amazon-athena/

希望能帮助到你。

Answer 2

如果您使用的是Spark或类似产品，则另一个解决方法是-将cv读取/加载到DataTable中，以及-继续使用R Server / sparklyr处理它

Answer 3

最初是基于OP中Hugh的评论，并为那些希望从s3加载常规大小的CSV的人添加了答案。

至少从2019年5月1日开始，有一个s3read_using（）函数可让您直接从存储桶中读取对象。

从而

data <- 
    aws.s3::s3read_using(read.csv, object = "s3://your_bucketname/your_object_name.csv.gz")

会成功的。 但是，如果您想使工作运行得更快，更干净，我更喜欢这样：

data <- 
    aws.s3::s3read_using(fread, object = "s3://your_bucketname/your_object_name.csv.gz") %>%
    janitor::clean_names()

以前需要以下更详细的方法：

library(aws.s3)

data <- 
  save_object("s3://myBucketName/directoryName/fileName.csv") %>%
  data.table::fread()

它适用于最大305 MB的文件。

一个更好的替代方法是用加载的每个csv的副本填充工作目录：

data <- 
  save_object("s3://myBucketName/directoryName/fileName.csv",
              file = tempfile(fileext = ".csv")
             ) %>%
  fread()

如果您对临时文件的位置感到好奇，则Sys.getenv()可以提供一些见解-请参见TMPDIR TEMP或TMP 。 可以在Base R tempfile文档中找到更多信息。 。

从S3读取大型csv文件到R

问题描述

3 个解决方案

解决方案1
2 2018-03-20 00:51:52

解决方案2
0 2018-09-30 07:00:11

解决方案3
0 2019-09-06 23:18:12

从S3读取大型csv文件到R

问题描述

3 个解决方案

解决方案1 2 2018-03-20 00:51:52

解决方案2 0 2018-09-30 07:00:11

解决方案3 0 2019-09-06 23:18:12

解决方案1
2 2018-03-20 00:51:52

解决方案2
0 2018-09-30 07:00:11

解决方案3
0 2019-09-06 23:18:12