[英]dataproc rename files written by spark in GCS folder
I am using Dataproc to implement spark jobs using Scala.我正在使用 Dataproc 使用 Scala 实现火花作业。 The aim of my spark job is to read data in GCS make some transformations and then write result data under GCS.我的 spark job 的目的是在 GCS 中读取数据做一些转换,然后在 GCS 下写入结果数据。 The files we got from spark write are PART-00 , I want to rename them, but I can't find any solution as the written files are under gcs and not hdfs.我们从 spark write 得到的文件是 PART-00 ,我想重命名它们,但我找不到任何解决方案,因为写入的文件在 gcs 而不是 hdfs 下。 Any idea how to solve this please.请知道如何解决这个问题。 thanks a lot.多谢。
在 Dataproc 集群上,您仍然可以像对 HDFS 一样对 GCS 运行相同的hadoop fs -mv
命令,除了使用完整的“gs://bucket/filename...”路径。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.