簡體   English   中英

Databricks python/pyspark 代碼,用於查找 azure 容器中 blob 的年齡

[英]Databricks python/pyspark code to find the age of the blob in azure container

尋找數據塊 python/pyspark 代碼以將 azure blob 從一個容器復制到另一個超過 30 天的容器

  • 復制代碼很簡單,如下。

     dbutils.fs.cp("/mnt/xxx/file_A", "/mnt/yyy/file_A", True)
  • 困難的部分是檢查 blob 修改時間。 根據文檔,只有在 Databricks Runtime 10.2 或更高版本上使用dbutils.fs.ls命令才能返回修改時間。 您可以使用以下命令檢查運行時版本。

     spark.conf.get("spark.databricks.clusterUsageTags.sparkVersion")

    返回值將是 Databricks Runtime,后跟 Scala 版本。
    如果您幸運地使用了該版本,則可以執行以下操作:

     import time ts_now = time.time() for file in dbutils.fs.ls('/mnt/xxx'): if ts_now - file.modificationTime > 30 * 86400: dbutils.fs.cp(f'/mnt/xxx/{file.name}', f'/mnt/yyy/{file.name}', True)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM