在Spark批处理作业中从kafka读取（从OffOffset直到Offset）

Question

I saw on this question that we can read messages from Kafka in spark batch jobs using org.apache.spark.streaming.kafka.KafkaUtils#createRDD but this method requires a offset range that needs a 'from offset' and 'until offset'. 我在这个问题上看到，我们可以使用org.apache.spark.streaming.kafka.KafkaUtils#createRDD在火花批处理作业中从Kafka读取消息，但是此方法需要一个偏移范围，该范围需要一个'from offset'和'until offset'。 I'm getting the 'from offset' from org.apache.spark.streaming.kafka.KafkaCluster#getLatestLeaderOffsets method but how can I get the until offset? 我从org.apache.spark.streaming.kafka.KafkaCluster#getLatestLeaderOffsets方法获取“从偏移量”，但是如何获取直到偏移量呢？ I'm using kafka-2.1.1-0.9.0.1 我正在使用kafka-2.1.1-0.9.0.1

Answer 1

You can use GetOffsetShell to fetch latest offset from any topic 您可以使用GetOffsetShell来获取任何主题的最新偏移量

bin/kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list localhost:9092 --topic myTopic --time -1

this will return : 这将返回：

myTopic:12341:47841

which mean 47841 is the latest offset for topic myTopic 这意味着47841是最新的话题偏移myTopic

在Spark批处理作业中从kafka读取（从OffOffset直到Offset）

问题描述

1 个解决方案

解决方案1
0 2018-05-17 07:03:09

在Spark批处理作业中从kafka读取（从OffOffset直到Offset）

问题描述

1 个解决方案

解决方案1 0 2018-05-17 07:03:09

解决方案1
0 2018-05-17 07:03:09