我正在尝试读取存储在 s3 存储桶中的一些镶木地板文件。 我正在使用以下代码: 当尝试执行最后一行代码lines = response[u'Body'].read().split('\\n')我收到以下错误: 我不确定如何解决这个问题。 ...
提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供 中文繁体 英文版本 中英对照 版本,有任何建议请联系yoyou2525@163.com。
我在 S3 存储桶中有一堆具有这种模式的文件
myfile_2018_(0).tab
myfile_2018_(1).tab
myfile_2018_(2).tab
..
myfile_2018_(150).tab
我想通过读取所有这些文件来创建一个 Spark Dataframe。 如何创建此正则表达式模式并读取文件?
文件有标题。 我正在使用 Scala 来完成这项任务。
只需指定一个 glob 模式如下(假设它们在同一个文件夹中):
val input = spark.read.option("header", true).csv("/path/to/data/myfile_2018_([0-9]*).tab")
input = spark.read
.format('com.databricks.spark.csv')
.option("delimiter", "\001")
.option("header", "true")
.option("nullValue", "null")
.load("s3://bucket-name/path/to/data/myfile_2018_([0-9]*).tab", schema=in_schema)
in_schema - 如果需要,您可以传递自己的架构,否则删除此选项。
如果您需要文件夹中存在的所有文件并且架构相同,您可以直接从上面的文件夹中读取。
input = spark.read
.format('com.databricks.spark.csv')
.option("delimiter", "\001")
.option("header", "true")
.option("nullValue", "null")
.load("s3://bucket-name/path/to/data/")
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.