從 Synapse Notebook 覆蓋 Azure datalake Gen 2 中的文件會引發異常

Question

作為從 Azure Databricks 遷移到 Azure Synapse Analytics Notebooks 的一部分，我遇到了下面解釋的問題。

從 Azure Datalake Storage Gen 2 讀取 CSV 文件並使用以下命令將其分配給 pyspark 數據幀時。

df = spark.read.format('csv').option("delimiter", ",").option("multiline", "true").option("quote", '"').option("header", "true").option("escape", "\\").load(csvFilePath)

處理完這個文件后，我們需要覆蓋它，我們使用以下命令。

df.coalesce(1).write.option("delimiter", ",").csv(csvFilePath, mode = 'overwrite', header = 'true')

這樣做的目的是刪除路徑“csvFilePath”處的現有文件，並且失敗並出現錯誤“Py4JJavaError：調用 o617.csv 時發生錯誤”。

我注意到的事情：

一旦覆蓋命令刪除了路徑“csvFilePath”處的 CSV 文件，數據幀“df”中的數據也會被刪除。
看起來它是在運行時引用文件，而傳統上在 databricks 中我們沒有這個問題並且覆蓋成功運行。

[Synapse Notebook 在寫入命令時返回的錯誤。][1] [1]：https://i.stack.imgur.com/Obj9q.png

Answer 1

建議執行掛載數據存儲。 請參考以下文檔。

https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-use-databricks-spark

從 Synapse Notebook 覆蓋 Azure datalake Gen 2 中的文件會引發異常

問題描述

1 個解決方案

解決方案1
0 2022-06-01 09:02:41

從 Synapse Notebook 覆蓋 Azure datalake Gen 2 中的文件會引發異常

問題描述

1 個解決方案

解決方案1 0 2022-06-01 09:02:41

解決方案1
0 2022-06-01 09:02:41