[英]How can I add timeout functionality to withWatermark in Spark Structured Streaming
[英]How can I process deleted (or updated) rows in Spark Structured Streaming?
如果我想count
一下有多少人在"Coca-Cola"
,我會使用以下查詢:
people.filter(_.company == "Coca-Cola").groupByKey(_.company).count().writeStream...
這在批處理模式下工作正常。
但是,假設一個person
的company
字段隨着時間的推移person
變化,或假設人們完全從Dataset
刪除,我怎么能使用結構化流式傳輸,所以count
仍然正確?
AFAIK Structured Streaming假設數據源是僅附加的:這是否意味着我需要將刪除和更新作為單獨的數據源進行跟蹤,並自己合並它們?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.