繁体   English   中英

databricks 中的 delta 湖 - stream 的最后半小时的一致“视图”

[英]delta lake in databricks - a consistent “view” of just the last half hour of a stream

我已经从 spark 结构化流(kafka 源)一致地更新了表这样写(在 eachBatch 中)


parsedDf \
        .select("somefield", "anotherField",'partition', 'offset') \
        .write \
        .format("delta") \
        .mode("append") \
        .option("mergeSchema", "true") \
        .save(f"/mnt/defaultDatalake/{append_table_name}")

我需要在此表上快速查看“最近半小时内插入的项目”如何实现? 我可以从这张表中获得一个 readStream,但我缺少的是如何只保留 stream 的“尾巴”

Databricks 7.5 火花 3。

鉴于 Delta Lake 没有物化视图,并且 Delta Lake 时间旅行不相关,因为您需要最新数据:

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM