簡體   English   中英

如何在Spark Structured Streaming中處理已刪除(或更新)的行?

[英]How can I process deleted (or updated) rows in Spark Structured Streaming?

如果我想count一下有多少人在"Coca-Cola" ,我會使用以下查詢:

people.filter(_.company == "Coca-Cola").groupByKey(_.company).count().writeStream...

這在批處理模式下工作正常。

但是,假設一個personcompany字段隨着時間的推移person變化,或假設人們完全從Dataset刪除,我怎么能使用結構化流式傳輸,所以count仍然正確?

AFAIK Structured Streaming假設數據源是僅附加的:這是否意味着我需要將刪除和更新作為單獨的數據源進行跟蹤,並自己合並它們?

一般來說,結構化流媒體模型是您正在閱讀不斷增長的僅附加表。 你是對的,這意味着為了回答你的問題,你必須建模一個值作為刪除(可能在像numEmployees這樣的字段中使用numEmployees )然后插入。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM