繁体   English   中英

如何在 databricks/Azure 数据湖中保存 15k csv 文件

[英]How to save 15k csv files in databricks/ Azure data lake

我有一个问题,我应该如何从 Auzre 数据湖下载 a.csv 文件,然后进行一些计算并将其保存在.csv 中。 我知道下载.csv 我可以使用: data=pd.read_csv('example.csv') #example

new_data=data//2+data #calculation in databricks notebook现在的问题是如何将new_data保存为example_calulated.csv格式的新数据。

要从 ADLS 访问文件,您需要将 Azure Data Lake Storage Gen2 文件系统挂载到 DBFS。

要从 ADLS 读取文件,请使用以下代码。

df = spark.read.format("csv").option("inferSchema", "true").option("header", "true").option("delimiter",",").load(file_location)

对数据应用转换后,您可以在 CSV 文件中写入数据。 按照下面的代码。

target_folder_path = 'path_to_adls_folder '

 
#write as CSV data

df.write.format("CSV").save("example_calulated.csv ")

然后你必须使用 dbutils.fs.mv 重命名保存的 csv 文件

尽管它宁愿复制和删除旧文件。 Databricks 没有真正的重命名 function

dbutils.fs.mv(old_name, new_name)

有关更多信息,请参阅 Ryan Kennedy 的这篇文章

要重命名 15K 文件,您可以参考 sri sivani charan 回答的类似问题

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM