通過 PySpark 獲取 S3 中的最新文件

Question

有沒有辦法通過 Pyspark 獲取 S3 存儲庫中的最后一個文件？

我設法使用以下代碼用 Python 做到了：

paginator = client.get_paginator('list_objects_v2')
pages = paginator.paginate(Bucket=Bucket, Prefix=Path)
for page in pages:
   for obj in page['Contents']:
       latest = max(page['Contents'], key=lambda x: x['LastModified'])

在 Spark 上我找不到任何文檔。

謝謝

Answer 1

您只需使用 Hadoop FileSystem API，使用 listStatusIterator()/listFiles() 獲取迭代器並掃描， FileStatus.getModificationTime()為您提供最后修改的字段。

但請注意：大文件上傳的 S3 時間戳是上傳開始而非完成的時間。 上傳需要幾分鍾的大文件會比上傳過程中在單個 PUT 中上傳的小文件更舊。

通過 PySpark 獲取 S3 中的最新文件

問題描述

1 個解決方案

解決方案1
0 已采納 2020-11-04 16:28:43

通過 PySpark 獲取 S3 中的最新文件

問題描述

1 個解決方案

解決方案1 0 已采納 2020-11-04 16:28:43

解決方案1
0 已采納 2020-11-04 16:28:43