簡體   English   中英

Spark Streaming Kafka初始偏移

[英]Spark Streaming Kafka initial offset

我正在對KafkaUtils.createDirectStream使用Java Spark API,我想跟蹤偏移量。 有一個名為fromOffset的參數,該參數在Kafka主題的分區中記錄偏移量。 對於第一次運行,我不知道會有多少個分區,那么如何設置此參數? 我需要在Kafka參數中設置“ auto.offset.reset”嗎? 如果是,是否會影響我的代碼從已知偏移量中恢復?

您有兩種選擇:

  • 如果您沒有有關分區的任何信息,請不要將該參數提供給createDirectStream。 createDirectStream方法有多種實現。 在這種情況下,將使用每個topicPartition的最早或最新偏移量(基於auto.offset.reset參數)

  • 您可以使用常用的kafka API查找分區和偏移量。 例如,看看如何在Kafka 0.10中找到主題分區的偏移范圍?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM