數據塊 DBFS

Question

我需要對 Databricks DBFS 進行一些說明。

用簡單的基本術語來說，它是什么，它的目的是什么，它允許我做什么？

databricks 上的文檔對此進行了說明。

“DBFS 中的文件會保留在 Azure Blob 存儲中，因此即使在終止群集后也不會丟失數據。”

任何見解都會有所幫助，但無法從體系結構和使用角度找到詳細介紹它的文檔

Answer 1

我有使用DBFS 的經驗，它是一個很好的存儲，它保存您可以使用DBFS CLI從本地計算機上傳的數據！ CLI 設置有點棘手，但是當您管理時，您可以輕松地在此環境中移動整個文件夾（請記住使用 -overwrite！）

創建文件夾
上傳文件
修改、刪除文件和文件夾

使用 Scala，您可以使用如下代碼輕松提取存儲在此存儲中的數據：

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/test.csv")
      .select(some_column_name)

或讀取整個文件夾以處理所有可用的 csv 文件：

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/*.csv")
      .select(some_column_name)

我認為它易於使用和學習，希望這些信息對您有所幫助！

Answer 2

Databricks 文件系統 (DBFS) 是安裝在 Databricks 工作區中的分布式文件系統，可在 Databricks 集群上使用。
DBFS 是可擴展對象存儲之上的抽象，具有以下優點：
1) 允許您掛載存儲對象，以便您無需憑據即可無縫訪問數據。
2) 允許您使用目錄和文件語義而不是存儲 URL 與對象存儲進行交互。 將文件持久化到對象存儲 (Blob)，因此您在終止集群后不會丟失數據。

以下鏈接將幫助您更好地了解 Databricks utils 命令： databricks-file-system 鏈接

Answer 3

除了值得一提的其他答案外，還有幾點：

AFAIK，您無需支付與 DBFS 相關的存儲成本。 相反，您需要按小時付費才能在 DBX 上運行作業。
即使它將數據存儲在雲中的 blob/s3 中，您也無法直接訪問該存儲。 這意味着您必須使用 DBX API 或 cli 來訪問此存儲。
這引出了第三點，也是顯而易見的一點，使用 DBFS 將使您的 Spark 應用程序與 DBX 更緊密地耦合。 這可能是也可能不是您想要做的。

數據塊 DBFS

問題描述

3 個解決方案

解決方案1
5 已采納 2019-02-25 12:57:48

解決方案2
2 2019-11-04 19:29:24

解決方案3
1 2020-02-01 15:17:21

數據塊 DBFS

問題描述

3 個解決方案

解決方案1 5 已采納 2019-02-25 12:57:48

解決方案2 2 2019-11-04 19:29:24

解決方案3 1 2020-02-01 15:17:21

解決方案1
5 已采納 2019-02-25 12:57:48

解決方案2
2 2019-11-04 19:29:24

解決方案3
1 2020-02-01 15:17:21