[英]How to pass file name as column in Spark
我需要将 Hadoop 文件路径数组传递给 spark.read
status= Array(org.apache.hadoop.fs.FileStatus)
我试过:
val s = spark.read.format("json").load(status: _*)
错误:
<console>:32: error: overloaded method value load with alternatives:
(paths: String*)org.apache.spark.sql.DataFrame <and>
(path: String)org.apache.spark.sql.DataFrame
cannot be applied to (org.apache.hadoop.fs.FileStatus)
val s = spark.read.format("json").load(status: _*)
如何在 Spark 中将文件名作为列传递?
您必须首先从FileStatus
对象数组中获取文件路径。
这应该可以正常工作:
val files = status.map(_.getPath().toString)
val df = spark.read.format("json").load(files: _*)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.