簡體   English   中英

使用 Python API 從 Databricks DBFS 下載大文件

[英]Download large file from Databricks DBFS with Python API

我正在嘗試使用他們的 DBFS API 從 Databricks 存儲中下載一些大文件,但我只獲得了 1 MB 以下的部分文件(單個 API 調用大小限制)。
有一個使用帶有句柄的 session 的大文件上傳示例 我想我會需要這樣的東西,但我無法繞過它。
讀取功能沒有句柄,但有offset參數。 我假設我可以創建一個帶有增量偏移量的循環,以每次調用拉 1 MB,但這聽起來不像是一個最佳解決方案。 此外,當我嘗試這樣做時,我仍然會得到大約 520 KB 的文件。

方案 1

使用 databricks 門戶,您最多可以直接下載(100 萬行)參考1

方案 2

安裝 azure databricks cli並使用 azure databricks 進行配置。使用此命令dbfs cp <file_to_download> <local_filename>並下載文件。 您可以將 DBFS API-2.0 與 unix 命令行界面 CLI一起使用

參考: 使用 azure 數據塊訪問 DBFS。

方案 3

使用 Web URL 直接下載 DBFS 文件

樣品最終 URL:

  https://adb-87xxxxxxxxx.9.azuredatabricks.net/files/tables/dd.csv/?o=8xxxxxxxxxxxx

在此處輸入圖像描述

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM