繁体   English   中英

在Spark Streaming中处理太晚的数据

[英]Handle Too Late data in Spark Streaming

水印允许使用窗口在一段时间内将迟到的数据考虑为​​已包含在已计算的结果中。 它的前提是,它跟踪到某个时间点,在该时间点之前,假定不再有任何较晚的事件应该到达,但是如果发生,则仍然将其discarded

有没有一种方法可以存储丢弃的数据,以便以后用于对帐? 在结构化流媒体中,我将水印设置为1小时。 我每10分钟执行一次窗口操作,并且晚20分钟收到一次以后的事件。 有什么方法可以将丢弃的数据存储在另一个位置,而不是丢弃它?

不,没有办法实现这一方面。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM