簡體   English   中英

Azure Databricks 中 DBFS 的數據大小限制是多少

[英]What is the Data size limit of DBFS in Azure Databricks

在這里讀到 AWS Databricks 的存儲限制為單個文件的 5TB,我們可以存儲任意數量的文件 那么同樣的限制是否適用於 Azure Databricks? 或者,Azure Databricks 是否有其他限制?

更新:

@CHEEKATLAPRADEEP 感謝您的解釋,但是,有人可以分享背后的原因嗎: “我們建議您將數據存儲在已安裝的 object 存儲中,而不是 DBFS 根目錄中”

我需要在 Power BI 中使用 DirectQuery(因為數據量很大),而 ADLS 目前還不支持。

來自 Azure Databricks 最佳實踐: 不要將任何生產數據存儲在默認 DBFS 文件夾中

在此處輸入圖像描述

重要提示:即使 DBFS 根是可寫的,我們還是建議您將數據存儲在已掛載的 object 存儲中,而不是存儲在 DBFS 根中。

建議將數據存儲在已掛載的存儲帳戶中而不是存儲在存儲帳戶中的原因位於 ADB 工作區中。

原因1:當您通過存儲資源管理器在外部使用相同的存儲帳戶時,您沒有寫入權限。

原因 2:您不能對另一個 ADB 工作區使用相同的存儲帳戶,也不能對 Azure 數據工廠或 Azure 突觸工作區使用相同的存儲帳戶鏈接服務。

原因 3:將來,您決定使用 Azure Synapse 工作區而不是 ADB。

原因4:如果要刪除現有工作區怎么辦。

Databricks 文件系統 (DBFS) 是安裝在 Azure Databricks 工作區中的分布式文件系統,可在 Azure Databricks 集群上使用。 DBFS 是可擴展 object 存儲(即 ADLS gen2)之上的抽象。

您可以在 Azure Data Lake Storage Gen2 中存儲的數據量沒有限制。

注意: Azure Data Lake Storage Gen2 能夠存儲和提供許多 EB 的數據。

對於 Azure Databricks 文件系統 (DBFS) - 僅支持大小小於2GB的文件。

注意:如果您使用本地文件 I/O API 讀取或寫入大於 2GB 的文件,您可能會看到損壞的文件。 相反,使用 DBFS CLI、dbutils.fs 或 Spark API 或使用 /dbfs/ml 文件夾訪問大於 2GB 的文件。

對於 Azure 存儲– 最大存儲帳戶容量為5 PiB PB。

下表描述了 Azure 通用 v1、v2、Blob 存儲和塊 Blob 存儲帳戶的默認限制。 入口限制是指發送到存儲帳戶的所有數據。 出口限制是指從存儲帳戶接收的所有數據。

在此處輸入圖像描述

注意:單個塊 blob 的限制為4.75 TB

在此處輸入圖像描述

Databricks 文檔指出:

僅支持小於 2GB 的文件。 如果您使用本地文件 I/O API 讀取或寫入大於 2GB 的文件,您可能會看到損壞的文件。 相反,使用 DBFS CLI、dbutils 訪問大於 2GB 的文件

您可以在此處閱讀更多信息: https://docs.microsoft.com/en-us/azure/databricks/data/databricks-file-system

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM