簡體   English   中英

在Spark Streaming中處理太晚的數據

[英]Handle Too Late data in Spark Streaming

水印允許使用窗口在一段時間內將遲到的數據考慮為​​已包含在已計算的結果中。 它的前提是,它跟蹤到某個時間點,在該時間點之前,假定不再有任何較晚的事件應該到達,但是如果發生,則仍然將其discarded

有沒有一種方法可以存儲丟棄的數據,以便以后用於對帳? 在結構化流媒體中,我將水印設置為1小時。 我每10分鍾執行一次窗口操作,並且晚20分鍾收到一次以后的事件。 有什么方法可以將丟棄的數據存儲在另一個位置,而不是丟棄它?

不,沒有辦法實現這一方面。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM