繁体   English   中英

如何从火花数据帧中的 AWS S3 读取多个文件?

How to read multiple files from AWS S3 in spark dataframe?

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

我在 S3 存储桶中有一堆具有这种模式的文件

myfile_2018_(0).tab
myfile_2018_(1).tab
myfile_2018_(2).tab
..
myfile_2018_(150).tab

我想通过读取所有这些文件来创建一个 Spark Dataframe。 如何创建此正则表达式模式并读取文件?

文件有标题。 我正在使用 Scala 来完成这项任务。

2 个回复

只需指定一个 glob 模式如下(假设它们在同一个文件夹中):

val input = spark.read.option("header", true).csv("/path/to/data/myfile_2018_([0-9]*).tab")
input = spark.read
.format('com.databricks.spark.csv')
.option("delimiter", "\001")
.option("header", "true")
.option("nullValue", "null")
.load("s3://bucket-name/path/to/data/myfile_2018_([0-9]*).tab", schema=in_schema)

in_schema - 如果需要,您可以传递自己的架构,否则删除此选项。

如果您需要文件夹中存在的所有文件并且架构相同,您可以直接从上面的文件夹中读取。

input = spark.read
.format('com.databricks.spark.csv')
.option("delimiter", "\001")
.option("header", "true")
.option("nullValue", "null")
.load("s3://bucket-name/path/to/data/")
2 Spark + AWS S3 将 JSON 读取为数据帧

我环顾四周,找不到解决我的问题的方法。 也许我做错了什么? 我试过添加其他帖子中提到的罐子。 我设置了 s3 访问密钥和密钥。 我不确定它是否与我解决的 s3 有关? 也许不是s3a,s3n,s3? 我觉得这是一个依赖问题,所以我专注于它,但也尝试了解决 s3 的各种组合。 如果有人知道检查哪个 s ...

3 使用Datastax Spark中的Scala将文件从S3存储桶读取到Spark Dataframe,并提交给AWS错误消息:错误的请求

我正在尝试读取位于孟买地区s3存储桶上的CSV文件。我正在尝试使用datastax dse spark-submit读取文件。 我尝试将hadoop-aws版本更改为其他各种版本。 当前,hadoop-aws版本是2.7.3 执行后,以下是我得到的错误, 线程“主”中的 ...

4 Spark 从 AWS S3 进程读取文件

在Spark中,如果数据文件在AWS S3(对象存储)中,executor读取的文件的block如何,executor坐标如何即executor 1读取block1(1-128 MB)和executor 2读取块 2(128 到 256MB)。 整个过程是如何管理的,由谁来管理? 其次,对象如何分 ...

5 我可以将多个文件从 S3 读入 Spark 数据帧,并忽略不存在的文件吗?

我想从 S3 将多个镶木地板文件读入数据帧。 目前,我使用以下方法来做到这一点: 如果所有文件都存在于 S3 上,这有效,但我想要求将文件列表加载到数据帧中,而不会在列表中的某些文件不存在时中断。 换句话说,我希望 sparkSql 将它找到的尽可能多的文件加载到数据框中,并返回此结果而不会抱怨 ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2021 STACKOOM.COM