簡體   English   中英

從 Databricks 筆記本中的 Azure Data Lake Storage Gen1 獲取嵌套文件夾的大小

[英]Fetch the size of nested folder from Azure Data Lake Storage Gen1 from Databricks notebook

我想從 Databricks Notebook 獲取文件夾大小的詳細信息。

我們可以通過 putty 通過運行 hadoop fs -lh {root-folder-path} 來做同樣的事情。 此命令將返回根文件夾內所有文件夾的可讀大小。 PFB樣品:

在此處輸入圖片說明

我嘗試從筆記本運行類似的 hadoop 命令,如下所示,但我相信 Hadoop 未安裝在驅動程序節點中:

在此處輸入圖片說明

當我嘗試 ls {root-folder-path} 時。 我得到的文件夾大小為 0。這是因為 dbutils 僅提供文件的大小值。 文件夾被硬編碼為 0.PFB 示例:

在此處輸入圖片說明

請指導我獲取詳細信息的最佳方式。

在 Azure Databricks 中,這是預期行為。

  • 對於文件,它顯示實際文件大小。
  • 對於目錄,它顯示 size=0
  • 對於損壞的文件顯示大小=0

在此處輸入圖片說明

您可以使用 Azure Databricks CLI 獲取更多詳細信息:

在此處輸入圖片說明

以下文章“ 使用 Pyspark計算Azure Data Lake 中文件夾的總存儲大小”解釋了如何將 ADLS Gen 1 中的存儲大小以及文件和文件夾的數量遞歸計算到 Databricks 中。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM