简体   繁体   English

dataproc 重命名由火花写入 GCS 文件夹中的文件

[英]dataproc rename files written by spark in GCS folder

I am using Dataproc to implement spark jobs using Scala.我正在使用 Dataproc 使用 Scala 实现火花作业。 The aim of my spark job is to read data in GCS make some transformations and then write result data under GCS.我的 spark job 的目的是在 GCS 中读取数据做一些转换,然后在 GCS 下写入结果数据。 The files we got from spark write are PART-00 , I want to rename them, but I can't find any solution as the written files are under gcs and not hdfs.我们从 spark write 得到的文件是 PART-00 ,我想重命名它们,但我找不到任何解决方案,因为写入的文件在 gcs 而不是 hdfs 下。 Any idea how to solve this please.请知道如何解决这个问题。 thanks a lot.多谢。

在 Dataproc 集群上,您仍然可以像对 HDFS 一样对 GCS 运行相同的hadoop fs -mv命令,除了使用完整的“gs://bucket/filename...”路径。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用Dataproc上的Spark,如何分别从每个分区写入GCS? - Using Spark on Dataproc, how to write to GCS separately from each partition? 如何在SPARK数据框创建的文件夹中合并所有零件文件并在Scala中将其重命名为文件夹名称 - How to merge all part files in a folder created by SPARK data frame and rename as folder name in scala Spark编写的实木复合地板文件中的Athena / Hive时间戳 - Athena/Hive timestamp in parquet files written by spark 数据处理; Spark 作业在 Dataproc Spark 集群上失败,但在本地运行 - Dataproc; Spark job fails on Dataproc Spark cluster, but runs locally 在Dataproc上运行Spark + Scala + Jupyter - Running Spark + Scala + Jupyter on Dataproc Spark-手动配置gcs连接器时无法从Google云端存储读取文件 - Spark - Can't read files from Google Cloud Storage when configuring gcs connector manually 从 Scala 中的 Spark 获取位于 GCS 存储桶中的所有文件的路径的最佳方法是什么? - What is the best way to get the paths of all the files located in a GCS bucket from Spark in Scala? 重命名写入的 CSV 文件 Spark 抛出错误“路径必须是绝对的”-Azure Data Lake - Rename written CSV file Spark throws Error “Path must be absolute” - Azure Data Lake 从Spark Dataframe写入的Parquet文件似乎已损坏 - Parquet files written from Spark Dataframe appear corrupted 根据 spark scala 中的文件夹名称重命名和移动 S3 文件 - Rename and Move S3 files based on their folders name in spark scala
 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM