如何從 Spark 中的分區拼花文件中讀取某個日期范圍

Question

我有一個每天寫入並按快照日期（長格式）分區的大型鑲木地板文件。 我正在嘗試編寫一個應用程序，該應用程序將日期和回溯值作為輸入，並從快照日返回 x 天后的鑲木地板切片。

我發現了一個類似的問題，該問題的答案建議我使用

spark.read.parquet("gs://parquet-storage-bucket/parquet-name/snapshot_date=[1564704000-1567123200]")

然而，Spark 似乎從字面上理解這一點，並且找不到具有這個確切名稱的鑲木地板（顯然）。

有沒有辦法可以提供開始和結束日期（長格式）並檢索此范圍內的所有分區數據？

Answer 1

您可以嘗試使用filter function 過濾數據集：

spark.read.parquet("gs://parquet-storage-bucket/parquet-name")
.filter(col("snapshot_date") >= 1564704000 && col("snapshot_date") <= 1567123200)