[英]Is there any way to assign a csv file from dbfs (databricks) path to a variable in pyspark?
I am executing following code in Databricks to convert a spark dataframe into csv dataframe.csv and store in dbfs path.
df.coalesce(1)\
.write\
.format("com.databricks.spark.csv")\
.option("header", "true")\
.save("dataframe.csv")
該文件是在dbfs:/dataframe.csv中創建的。 我需要將此文件分配給文件名,以便我可以將文件附加到郵件中。 我在用:
filename = pandas.read_csv("dataframe.csv")
但這給我帶來了錯誤: IOError: File dataframe.csv does not exist
有人可以幫幫我嗎?
您需要在/dbfs
文件夾中添加文件名,如下所示:
filename = "/dbfs/somefile.csv"
frame = pd.read_csv(filename)
在這里,您將使用 Databricks 文件系統的本地文件 API ,這是您可以與此分布式文件系統交互的多種方式之一。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.