簡體   English   中英

Python Pandas 從 DataLake 讀取 csv

[英]Python Pandas read csv from DataLake

我正在嘗試讀取存儲在 Azure Data Lake Gen 2 上的 csv 文件,Python 在 Databricks 中運行。 這是兩行代碼,第一行有效,第二行失敗。 我真的必須安裝 Adls 才能讓 Pandas 能夠訪問它。

data1 = spark.read.option("header",False).format("csv").load("abfss://oper-iot-uploads@xxx.dfs.core.windows.net/belgium/dessel/c3/kiln/temp/Auto202012101237.TXT")
data2 = pd.read_csv("abfss://oper-iot-uploads@xxx.dfs.core.windows.net/belgium/dessel/c3/kiln/temp/Auto202012101237.TXT")

有什么建議么?

Pandas 不了解雲存儲,僅適用於本地文件。 在 Databricks 上,您應該能夠在本地復制文件,因此您可以使用 Pandas 打開它。 這可以通過%fs cp abfss://.... file:///your-locationdbutils.fs.cp("abfss://....", "file:///your-location") (見文檔)。

另一種可能性是使用 Koalas代替 Pandas,該庫在 Spark 之上提供與 Pandas 兼容的 API。 除了能夠訪問雲中的數據外,您還可以以分布式方式運行您的代碼。

我可以通過將雲存儲安裝為驅動器來解決它。 現在工作正常。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM