如何在 databricks/Azure 数据湖中保存 15k csv 文件

Question

我有一个问题，我应该如何从 Auzre 数据湖下载 a.csv 文件，然后进行一些计算并将其保存在.csv 中。 我知道下载.csv 我可以使用： data=pd.read_csv('example.csv') #example

new_data=data//2+data #calculation in databricks notebook现在的问题是如何将new_data保存为example_calulated.csv格式的新数据。

Answer 1

要从 ADLS 访问文件，您需要将 Azure Data Lake Storage Gen2 文件系统挂载到 DBFS。

要从 ADLS 读取文件，请使用以下代码。

df = spark.read.format("csv").option("inferSchema", "true").option("header", "true").option("delimiter",",").load(file_location)

对数据应用转换后，您可以在 CSV 文件中写入数据。 按照下面的代码。

target_folder_path = 'path_to_adls_folder '

 
#write as CSV data

df.write.format("CSV").save("example_calulated.csv ")

然后你必须使用 dbutils.fs.mv 重命名保存的 csv 文件

尽管它宁愿复制和删除旧文件。 Databricks 没有真正的重命名 function

dbutils.fs.mv(old_name, new_name)

有关更多信息，请参阅 Ryan Kennedy 的这篇文章

要重命名 15K 文件，您可以参考 sri sivani charan 回答的类似问题