簡體   English   中英

來自 Databricks 的文件元數據,例如 timein Azure 存儲

[英]File metadata such as timein Azure Storage from Databricks

我正在嘗試獲取 creationfile 元數據。

文件在: Azure 存儲
訪問數據拋出: Databricks

現在我正在使用:

   file_path = my_storage_path
   dbutils.fs.ls(file_path)

但它返回
[FileInfo(path='path_myFile.csv', name='fileName.csv', size=437940)]

我沒有任何關於創建時間的信息,有沒有辦法獲得這些信息?

Stackoverflow 中的其他解決方案是指已經在 databricks 中的文件 databricks dbfs 是否支持文件元數據,例如文件/文件夾創建日期或修改日期在我的情況下,我們從 Databricks 訪問數據,但數據位於 Azure 存儲中。

這實際上取決於您使用的 Databricks Runtime (DBR) 的版本。 例如,如果您使用 DBR 10.2,則可以使用修改時間戳(未使用 10.0/10.1 進行測試,但在 9.1 上絕對不可用):

在此處輸入圖像描述

如果您需要獲取該信息,您可以通過 Py4j 網關使用Hadoop FileSystem API ,如下所示:

URI           = sc._gateway.jvm.java.net.URI
Path          = sc._gateway.jvm.org.apache.hadoop.fs.Path
FileSystem    = sc._gateway.jvm.org.apache.hadoop.fs.FileSystem
Configuration = sc._gateway.jvm.org.apache.hadoop.conf.Configuration

fs = FileSystem.get(URI("/tmp"), Configuration())

status = fs.listStatus(Path('/tmp/'))
for fileStatus in status:
    print(f"path={fileStatus.getPath()}, size={fileStatus.getLen()}, mod_time={fileStatus.getModificationTime()}")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM