[英]Spark Streaming Kafka initial offset
我正在對KafkaUtils.createDirectStream使用Java Spark API,我想跟蹤偏移量。 有一個名為fromOffset的參數,該參數在Kafka主題的分區中記錄偏移量。 對於第一次運行,我不知道會有多少個分區,那么如何設置此參數? 我需要在Kafka參數中設置“ auto.offset.reset”嗎? 如果是,是否會影響我的代碼從已知偏移量中恢復?
您有兩種選擇:
如果您沒有有關分區的任何信息,請不要將該參數提供給createDirectStream。 createDirectStream方法有多種實現。 在這種情況下,將使用每個topicPartition的最早或最新偏移量(基於auto.offset.reset
參數)
您可以使用常用的kafka API查找分區和偏移量。 例如,看看如何在Kafka 0.10中找到主題分區的偏移范圍?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.