Python Pandas 從 DataLake 讀取 csv

Question

我正在嘗試讀取存儲在 Azure Data Lake Gen 2 上的 csv 文件，Python 在 Databricks 中運行。 這是兩行代碼，第一行有效，第二行失敗。 我真的必須安裝 Adls 才能讓 Pandas 能夠訪問它。

data1 = spark.read.option("header",False).format("csv").load("abfss://oper-iot-uploads@xxx.dfs.core.windows.net/belgium/dessel/c3/kiln/temp/Auto202012101237.TXT")
data2 = pd.read_csv("abfss://oper-iot-uploads@xxx.dfs.core.windows.net/belgium/dessel/c3/kiln/temp/Auto202012101237.TXT")

有什么建議么？

Answer 1

Pandas 不了解雲存儲，僅適用於本地文件。 在 Databricks 上，您應該能夠在本地復制文件，因此您可以使用 Pandas 打開它。 這可以通過%fs cp abfss://.... file:///your-location或dbutils.fs.cp("abfss://....", "file:///your-location") （見文檔）。

另一種可能性是使用 Koalas庫代替 Pandas，該庫在 Spark 之上提供與 Pandas 兼容的 API。 除了能夠訪問雲中的數據外，您還可以以分布式方式運行您的代碼。

Answer 2

我可以通過將雲存儲安裝為驅動器來解決它。 現在工作正常。

Python Pandas 從 DataLake 讀取 csv

問題描述

2 個解決方案

解決方案1
1 2021-01-22 14:10:32

解決方案2
0 2021-01-27 17:28:04

Python Pandas 從 DataLake 讀取 csv

問題描述

2 個解決方案

解決方案1 1 2021-01-22 14:10:32

解決方案2 0 2021-01-27 17:28:04

解決方案1
1 2021-01-22 14:10:32

解決方案2
0 2021-01-27 17:28:04