[英]File metadata such as timein Azure Storage from Databricks
我正在嘗試獲取 creationfile 元數據。
文件在: Azure 存儲
訪問數據拋出: Databricks
現在我正在使用:
file_path = my_storage_path
dbutils.fs.ls(file_path)
但它返回
[FileInfo(path='path_myFile.csv', name='fileName.csv', size=437940)]
我沒有任何關於創建時間的信息,有沒有辦法獲得這些信息?
Stackoverflow 中的其他解決方案是指已經在 databricks 中的文件 databricks dbfs 是否支持文件元數據,例如文件/文件夾創建日期或修改日期在我的情況下,我們從 Databricks 訪問數據,但數據位於 Azure 存儲中。
這實際上取決於您使用的 Databricks Runtime (DBR) 的版本。 例如,如果您使用 DBR 10.2,則可以使用修改時間戳(未使用 10.0/10.1 進行測試,但在 9.1 上絕對不可用):
如果您需要獲取該信息,您可以通過 Py4j 網關使用Hadoop FileSystem API ,如下所示:
URI = sc._gateway.jvm.java.net.URI
Path = sc._gateway.jvm.org.apache.hadoop.fs.Path
FileSystem = sc._gateway.jvm.org.apache.hadoop.fs.FileSystem
Configuration = sc._gateway.jvm.org.apache.hadoop.conf.Configuration
fs = FileSystem.get(URI("/tmp"), Configuration())
status = fs.listStatus(Path('/tmp/'))
for fileStatus in status:
print(f"path={fileStatus.getPath()}, size={fileStatus.getLen()}, mod_time={fileStatus.getModificationTime()}")
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.