簡體   English   中英

數據塊 DBFS

[英]DATABRICKS DBFS

我需要對 Databricks DBFS 進行一些說明。

用簡單的基本術語來說,它是什么,它的目的是什么,它允許我做什么?

databricks 上的文檔對此進行了說明。

“DBFS 中的文件會保留在 Azure Blob 存儲中,因此即使在終止群集后也不會丟失數據。”

任何見解都會有所幫助,但無法從體系結構和使用角度找到詳細介紹它的文檔

我有使用DBFS 的經驗,它是一個很好的存儲,它保存您可以使用DBFS CLI從本地計算機上傳的數據! CLI 設置有點棘手,但是當您管理時,您可以輕松地在此環境中移動整個文件夾(請記住使用 -overwrite!)

  1. 創建文件夾
  2. 上傳文件
  3. 修改、刪除文件和文件夾

使用 Scala,您可以使用如下代碼輕松提取存儲在此存儲中的數據:

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/test.csv")
      .select(some_column_name)

或讀取整個文件夾以處理所有可用的 csv 文件:

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/*.csv")
      .select(some_column_name)

我認為它易於使用和學習,希望這些信息對您有所幫助!

Databricks 文件系統 (DBFS) 是安裝在 Databricks 工作區中的分布式文件系統,可在 Databricks 集群上使用。
DBFS 是可擴展對象存儲之上的抽象,具有以下優點:
1) 允許您掛載存儲對象,以便您無需憑據即可無縫訪問數據。
2) 允許您使用目錄和文件語義而不是存儲 URL 與對象存儲進行交互。 將文件持久化到對象存儲 (Blob),因此您在終止集群后不會丟失數據。

以下鏈接將幫助您更好地了解 Databricks utils 命令: databricks-file-system 鏈接

除了值得一提的其他答案外,還有幾點:

  1. AFAIK,您無需支付與 DBFS 相關的存儲成本。 相反,您需要按小時付費才能在 DBX 上運行作業。

  2. 即使它將數據存儲在雲中的 blob/s3 中,您也無法直接訪問該存儲。 這意味着您必須使用 DBX API 或 cli 來訪問此存儲。

  3. 這引出了第三點,也是顯而易見的一點,使用 DBFS 將使您的 Spark 應用程序與 DBX 更緊密地耦合。 這可能是也可能不是您想要做的。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM