繁体   English   中英

如何在 Spark 中将文件名作为列传递

[英]How to pass file name as column in Spark

我需要将 Hadoop 文件路径数组传递给 spark.read

status= Array(org.apache.hadoop.fs.FileStatus)

我试过:

val s = spark.read.format("json").load(status: _*)

错误:


<console>:32: error: overloaded method value load with alternatives:

  (paths: String*)org.apache.spark.sql.DataFrame <and>

  (path: String)org.apache.spark.sql.DataFrame

cannot be applied to (org.apache.hadoop.fs.FileStatus)

       val s = spark.read.format("json").load(status: _*)

如何在 Spark 中将文件名作为列传递?

您必须首先从FileStatus对象数组中获取文件路径。

这应该可以正常工作:

val files = status.map(_.getPath().toString)

val df = spark.read.format("json").load(files: _*)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM