繁体   English   中英

Spark Streaming在处理过程中定期维护kafka偏移

[英]Spark streaming maintain kafka offset periodically as it processes

在来自Kafka的Spark Streaming直接方法中,有一种方法可以让我知道Kafka偏移级别范围。 但是,如果我想定期维护偏移量级别,以便在需要时可以重新处理偏移量中的项目。 处理每条消息时,有什么方法可以在rdd中检索消息的偏移量? 例如,使用offsetranges,我具有RDD的开始和结束偏移量,但是如果在处理RDD系统的每个记录时遇到错误以及作业结束,该怎么办。 现在,如果我要从失败的记录开始处理,我该如何首先保存上一个成功的偏移量,以便下次启动时可以从该偏移量开始。

随着Spark 1.3的发布,有一种新的直接方法(无接收器)将这种底层的复杂性隐藏在幕后。 如果发生故障,重启后可以自动从Kafka恢复足够的Kafka保留消息。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM