簡體   English   中英

Spark Streaming在處理過程中定期維護kafka偏移

[英]Spark streaming maintain kafka offset periodically as it processes

在來自Kafka的Spark Streaming直接方法中,有一種方法可以讓我知道Kafka偏移級別范圍。 但是,如果我想定期維護偏移量級別,以便在需要時可以重新處理偏移量中的項目。 處理每條消息時,有什么方法可以在rdd中檢索消息的偏移量? 例如,使用offsetranges,我具有RDD的開始和結束偏移量,但是如果在處理RDD系統的每個記錄時遇到錯誤以及作業結束,該怎么辦。 現在,如果我要從失敗的記錄開始處理,我該如何首先保存上一個成功的偏移量,以便下次啟動時可以從該偏移量開始。

隨着Spark 1.3的發布,有一種新的直接方法(無接收器)將這種底層的復雜性隱藏在幕后。 如果發生故障,重啟后可以自動從Kafka恢復足夠的Kafka保留消息。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM