簡體   English   中英

有什么方法可以將 dbfs(databricks)路徑中的 csv 文件分配給 pyspark 中的變量?

[英]Is there any way to assign a csv file from dbfs (databricks) path to a variable in pyspark?

I am executing following code in Databricks to convert a spark dataframe into csv dataframe.csv and store in dbfs path.

df.coalesce(1)\
 .write\
 .format("com.databricks.spark.csv")\
 .option("header", "true")\
 .save("dataframe.csv")

該文件是在dbfs:/dataframe.csv中創建的。 我需要將此文件分配給文件名,以便我可以將文件附加到郵件中。 我在用:

filename = pandas.read_csv("dataframe.csv")

但這給我帶來了錯誤: IOError: File dataframe.csv does not exist

有人可以幫幫我嗎?

您需要在/dbfs文件夾中添加文件名,如下所示:

filename = "/dbfs/somefile.csv"
frame = pd.read_csv(filename)

在這里,您將使用 Databricks 文件系統的本地文件 API ,這是您可以與此分布式文件系統交互的多種方式之一。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM