[英]Databricks python/pyspark code to find the age of the blob in azure container
尋找數據塊 python/pyspark 代碼以將 azure blob 從一個容器復制到另一個超過 30 天的容器
復制代碼很簡單,如下。
dbutils.fs.cp("/mnt/xxx/file_A", "/mnt/yyy/file_A", True)
困難的部分是檢查 blob 修改時間。 根據文檔,只有在 Databricks Runtime 10.2 或更高版本上使用dbutils.fs.ls
命令才能返回修改時間。 您可以使用以下命令檢查運行時版本。
spark.conf.get("spark.databricks.clusterUsageTags.sparkVersion")
返回值將是 Databricks Runtime,后跟 Scala 版本。
如果您幸運地使用了該版本,則可以執行以下操作:
import time ts_now = time.time() for file in dbutils.fs.ls('/mnt/xxx'): if ts_now - file.modificationTime > 30 * 86400: dbutils.fs.cp(f'/mnt/xxx/{file.name}', f'/mnt/yyy/{file.name}', True)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.