[英]DATABRICKS DBFS
我需要對 Databricks DBFS 進行一些說明。
用簡單的基本術語來說,它是什么,它的目的是什么,它允許我做什么?
databricks 上的文檔對此進行了說明。
“DBFS 中的文件會保留在 Azure Blob 存儲中,因此即使在終止群集后也不會丟失數據。”
任何見解都會有所幫助,但無法從體系結構和使用角度找到詳細介紹它的文檔
我有使用DBFS 的經驗,它是一個很好的存儲,它保存您可以使用DBFS CLI從本地計算機上傳的數據! CLI 設置有點棘手,但是當您管理時,您可以輕松地在此環境中移動整個文件夾(請記住使用 -overwrite!)
使用 Scala,您可以使用如下代碼輕松提取存儲在此存儲中的數據:
val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/test.csv")
.select(some_column_name)
或讀取整個文件夾以處理所有可用的 csv 文件:
val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/*.csv")
.select(some_column_name)
我認為它易於使用和學習,希望這些信息對您有所幫助!
Databricks 文件系統 (DBFS) 是安裝在 Databricks 工作區中的分布式文件系統,可在 Databricks 集群上使用。
DBFS 是可擴展對象存儲之上的抽象,具有以下優點:
1) 允許您掛載存儲對象,以便您無需憑據即可無縫訪問數據。
2) 允許您使用目錄和文件語義而不是存儲 URL 與對象存儲進行交互。 將文件持久化到對象存儲 (Blob),因此您在終止集群后不會丟失數據。
以下鏈接將幫助您更好地了解 Databricks utils 命令: databricks-file-system 鏈接
除了值得一提的其他答案外,還有幾點:
AFAIK,您無需支付與 DBFS 相關的存儲成本。 相反,您需要按小時付費才能在 DBX 上運行作業。
即使它將數據存儲在雲中的 blob/s3 中,您也無法直接訪問該存儲。 這意味着您必須使用 DBX API 或 cli 來訪問此存儲。
這引出了第三點,也是顯而易見的一點,使用 DBFS 將使您的 Spark 應用程序與 DBX 更緊密地耦合。 這可能是也可能不是您想要做的。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.