繁体   English   中英

从 Databricks 笔记本中的 Azure Data Lake Storage Gen1 获取嵌套文件夹的大小

[英]Fetch the size of nested folder from Azure Data Lake Storage Gen1 from Databricks notebook

我想从 Databricks Notebook 获取文件夹大小的详细信息。

我们可以通过 putty 通过运行 hadoop fs -lh {root-folder-path} 来做同样的事情。 此命令将返回根文件夹内所有文件夹的可读大小。 PFB样品:

在此处输入图片说明

我尝试从笔记本运行类似的 hadoop 命令,如下所示,但我相信 Hadoop 未安装在驱动程序节点中:

在此处输入图片说明

当我尝试 ls {root-folder-path} 时。 我得到的文件夹大小为 0。这是因为 dbutils 仅提供文件的大小值。 文件夹被硬编码为 0.PFB 示例:

在此处输入图片说明

请指导我获取详细信息的最佳方式。

在 Azure Databricks 中,这是预期行为。

  • 对于文件,它显示实际文件大小。
  • 对于目录,它显示 size=0
  • 对于损坏的文件显示大小=0

在此处输入图片说明

您可以使用 Azure Databricks CLI 获取更多详细信息:

在此处输入图片说明

以下文章“ 使用 Pyspark计算Azure Data Lake 中文件夹的总存储大小”解释了如何将 ADLS Gen 1 中的存储大小以及文件和文件夹的数量递归计算到 Databricks 中。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM