有什么方法可以將 dbfs（databricks）路徑中的 csv 文件分配給 pyspark 中的變量？

Question

I am executing following code in Databricks to convert a spark dataframe into csv dataframe.csv and store in dbfs path.

df.coalesce(1)\
 .write\
 .format("com.databricks.spark.csv")\
 .option("header", "true")\
 .save("dataframe.csv")

該文件是在dbfs:/dataframe.csv中創建的。 我需要將此文件分配給文件名，以便我可以將文件附加到郵件中。 我在用：

filename = pandas.read_csv("dataframe.csv")

但這給我帶來了錯誤： IOError: File dataframe.csv does not exist

有人可以幫幫我嗎？

Answer 1

您需要在/dbfs文件夾中添加文件名，如下所示：

filename = "/dbfs/somefile.csv"
frame = pd.read_csv(filename)

在這里，您將使用 Databricks 文件系統的本地文件 API ，這是您可以與此分布式文件系統交互的多種方式之一。