簡體   English   中英

如何從 Spark 中的分區拼花文件中讀取某個日期范圍

[英]How do I read a certain date range from a partitioned parquet file in Spark

我有一個每天寫入並按快照日期(長格式)分區的大型鑲木地板文件。 我正在嘗試編寫一個應用程序,該應用程序將日期和回溯值作為輸入,並從快照日返回 x 天后的鑲木地板切片。

我發現了一個類似的問題,該問題的答案建議我使用

spark.read.parquet("gs://parquet-storage-bucket/parquet-name/snapshot_date=[1564704000-1567123200]")

然而,Spark 似乎從字面上理解這一點,並且找不到具有這個確切名稱的鑲木地板(顯然)。

有沒有辦法可以提供開始和結束日期(長格式)並檢索此范圍內的所有分區數據?

您可以嘗試使用filter function 過濾數據集:

spark.read.parquet("gs://parquet-storage-bucket/parquet-name")
.filter(col("snapshot_date") >= 1564704000 && col("snapshot_date") <= 1567123200)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM