簡體   English   中英

DBFS AZURE Databricks - 文件存儲和 DBFS 的區別

[英]DBFS AZURE Databricks -difference in filestore and DBFS

我正在使用帶有 ADLS 存儲層的 Azure Databricks。我懷疑DBFS 和 Filestore之間有什么區別? 任何想法,可以存儲在 Filestore中的文件的最大大小是多少? 我們可以將 output 文件存儲在 Filestore 中然后覆蓋它們嗎?

謝謝你。

DBFS 是對雲存儲實現的抽象,它允許您使用簡單的路徑而不是完整的 URL 來處理雲存儲中的文件。 從文檔:

Databricks 文件系統 (DBFS) 是安裝在 Databricks 工作區中的分布式文件系統,可在 Databricks 集群上使用。 DBFS 是可擴展 object 存儲之上的抽象,具有以下優勢:

  • 允許您掛載存儲對象,以便無需憑據即可無縫訪問數據。
  • 允許您使用目錄和文件語義而不是存儲 URL 與 object 存儲進行交互。
  • 將文件保存到 object 存儲,因此您在終止集群后不會丟失數據。

在引擎蓋下,在 Azure 上,它使用相同的 ADLS,因此應該應用相同的限制( 當前限制為每個文件 200Tb)。

PS 請注意,有所謂的DBFS Root - 從創建工作空間期間自動創建的存儲帳戶創建,並且 DBFS 安裝到“外部”存儲帳戶。 通常建議僅將 DBFS Root 用於臨時文件,因為如果您刪除工作區,該存儲帳戶也將被刪除。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM