Java，如何在 apache kafka 中获取主题中的消息数

Question

我正在使用 apache kafka 进行消息传递。 我已经用 Java 实现了生产者和消费者。 我们如何获取主题中的消息数？

Answer 1

它不是java，但可能有用

./bin/kafka-run-class.sh kafka.tools.GetOffsetShell \
  --broker-list <broker>:<port> \
  --topic <topic-name> \
  | awk -F  ":" '{sum += $3} END {print sum}'

Answer 2

从消费者的角度来看，对此想到的唯一方法是实际使用消息并随后对其进行计数。

Kafka 代理公开了自启动以来收到的消息数量的 JMX 计数器，但您无法知道其中有多少已被清除。

在最常见的情况下，Kafka 中的消息最好被视为无限流，并且获取当前保留在磁盘上的数量的离散值是不相关的。 此外，当处理在一个主题中都有一个消息子集的代理集群时，事情会变得更加复杂。

Answer 3

由于不再支持ConsumerOffsetChecker ，您可以使用此命令检查主题中的所有消息：

bin/kafka-run-class.sh kafka.admin.ConsumerGroupCommand \
    --group my-group \
    --bootstrap-server localhost:9092 \
    --describe

其中LAG是主题分区中的消息数：

您也可以尝试使用kafkacat 。 这是一个开源项目，可以帮助您从主题和分区中读取消息并将它们打印到标准输出。 这是一个示例，它从sample-kafka-topic主题中读取最后 10 条消息，然后退出：

kafkacat -b localhost:9092 -t sample-kafka-topic -p 0 -o -10 -e

Answer 4

我实际上用它来对我的 POC 进行基准测试。 您要使用 ConsumerOffsetChecker 的项目。 您可以使用如下所示的 bash 脚本运行它。

bin/kafka-run-class.sh kafka.tools.ConsumerOffsetChecker  --topic test --zookeeper localhost:2181 --group testgroup

结果如下： 正如您在红色框中看到的那样，999 是当前主题中的消息数。

更新：ConsumerOffsetChecker 自 0.10.0 起已弃用，您可能希望开始使用 ConsumerGroupCommand。

Answer 5

有时感兴趣的是了解每个分区中的消息数量，例如，在测试自定义分区器时。随后的步骤已经过测试，可与 Confluent 3.2 中的 Kafka 0.10.2.1-2 一起使用。 给定一个 Kafka 主题、 kt和以下命令行：

$ kafka-run-class kafka.tools.GetOffsetShell \
  --broker-list host01:9092,host02:9092,host02:9092 --topic kt

打印示例输出，显示三个分区中的消息计数：

kt:2:6138
kt:1:6123
kt:0:6137

行数可能或多或少取决于主题的分区数。

Answer 6

使用https://prestodb.io/docs/current/connector/kafka-tutorial.html

Facebook 提供的一个超级 SQL 引擎，它连接多个数据源（Cassandra、Kafka、JMX、Redis ...）。

PrestoDB 作为带有可选工作程序的服务器运行（有一个没有额外工作程序的独立模式），然后您使用一个小的可执行 JAR（称为 presto CLI）进行查询。

配置好 Presto 服务器后，就可以使用传统的 SQL：

SELECT count(*) FROM TOPIC_NAME;

Answer 7

Apache Kafka 命令在主题的所有分区上获取未处理的消息：

kafka-run-class kafka.tools.ConsumerOffsetChecker 
    --topic test --zookeeper localhost:2181 
    --group test_group

印刷：

Group      Topic        Pid Offset          logSize         Lag             Owner
test_group test         0   11051           11053           2               none
test_group test         1   10810           10812           2               none
test_group test         2   11027           11028           1               none

第 6 列是未处理的消息。 像这样添加它们：

kafka-run-class kafka.tools.ConsumerOffsetChecker 
    --topic test --zookeeper localhost:2181 
    --group test_group 2>/dev/null | awk 'NR>1 {sum += $6} 
    END {print sum}'

awk 读取行，跳过标题行并将第 6 列相加，最后打印总和。

印刷

Answer 8

使用 Kafka 2.11-1.0.0 的 Java 客户端，您可以执行以下操作：

    KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
    consumer.subscribe(Collections.singletonList("test"));
    while(true) {
        ConsumerRecords<String, String> records = consumer.poll(100);
        for (ConsumerRecord<String, String> record : records) {
            System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());

            // after each message, query the number of messages of the topic
            Set<TopicPartition> partitions = consumer.assignment();
            Map<TopicPartition, Long> offsets = consumer.endOffsets(partitions);
            for(TopicPartition partition : offsets.keySet()) {
                System.out.printf("partition %s is at %d\n", partition.topic(), offsets.get(partition));
            }
        }
    }

输出是这样的：

offset = 10, key = null, value = un
partition test is at 13
offset = 11, key = null, value = deux
partition test is at 13
offset = 12, key = null, value = trois
partition test is at 13

Answer 9

运行以下命令（假设kafka-console-consumer.sh在路径上）：

kafka-console-consumer.sh  --from-beginning \
--bootstrap-server yourbroker:9092 --property print.key=true  \
--property print.value=false --property print.partition \
--topic yourtopic --timeout-ms 5000 | tail -n 10|grep "Processed a total of"

Answer 10

要获取为主题存储的所有消息，您可以将消费者寻找到每个分区的流的开头和结尾，并对结果求和

List<TopicPartition> partitions = consumer.partitionsFor(topic).stream()
        .map(p -> new TopicPartition(topic, p.partition()))
        .collect(Collectors.toList());
    consumer.assign(partitions); 
    consumer.seekToEnd(Collections.emptySet());
Map<TopicPartition, Long> endPartitions = partitions.stream()
        .collect(Collectors.toMap(Function.identity(), consumer::position));
    consumer.seekToBeginning(Collections.emptySet());
System.out.println(partitions.stream().mapToLong(p -> endPartitions.get(p) - consumer.position(p)).sum());

Answer 11

我有同样的问题，这就是我在 Kotlin 中来自 KafkaConsumer 的做法：

val messageCount = consumer.listTopics().entries.filter { it.key == topicName }
    .map {
        it.value.map { topicInfo -> TopicPartition(topicInfo.topic(), topicInfo.partition()) }
    }.map { consumer.endOffsets(it).values.sum() - consumer.beginningOffsets(it).values.sum()}
    .first()

非常粗略的代码，因为我刚刚开始工作，但基本上你想从结束偏移中减去主题的开始偏移，这将是主题的当前消息计数。

您不能仅仅依赖结束偏移量，因为其他配置（清理策略、保留毫秒等）可能最终导致从您的主题中删除旧消息。 偏移量仅向前“移动”，因此它是开始偏移量将向前移动更接近结束偏移量（或者最终到相同的值，如果主题现在不包含消息）。

基本上，结束偏移量表示通过该主题的消息总数，两者之间的差异表示该主题现在包含的消息数。

Answer 12

在最新版本的 Kafka Manager 中，有一列标题为Summed Recent Offsets 。

Answer 13

Kafka 文档节选

0.9.0.0 中的弃用

kafka-consumer-offset-checker.sh (kafka.tools.ConsumerOffsetChecker) 已被弃用。 今后，请使用 kafka-consumer-groups.sh (kafka.admin.ConsumerGroupCommand) 来实现此功能。

我正在为服务器和客户端运行启用 SSL 的 Kafka 代理。 下面的命令我使用

kafka-consumer-groups.sh --bootstrap-server Broker_IP:Port --list --command-config /tmp/ssl_config kafka-consumer-groups.sh --bootstrap-server Broker_IP:Port --command-config /tmp/ssl_config --describe --group group_name_x

其中 /tmp/ssl_config 如下

security.protocol=SSL
ssl.truststore.location=truststore_file_path.jks
ssl.truststore.password=truststore_password
ssl.keystore.location=keystore_file_path.jks
ssl.keystore.password=keystore_password
ssl.key.password=key_password

Answer 14

如果您有权访问服务器的 JMX 接口，则开始和结束偏移量位于：

kafka.log:type=Log,name=LogStartOffset,topic=TOPICNAME,partition=PARTITIONNUMBER
kafka.log:type=Log,name=LogEndOffset,topic=TOPICNAME,partition=PARTITIONNUMBER

（您需要替换TOPICNAME和PARTITIONNUMBER ）。 请记住，您需要检查给定分区的每个副本，或者您需要找出哪个代理是给定分区的领导者（这可能会随着时间而改变）。

或者，您可以使用Kafka Consumer方法beginningOffsets和endOffsets 。

Answer 15

我们可以使用下面的简单java来获取有关主题的消息数

Properties props = new Properties();
props.setProperty("bootstrap.servers", "localhost:9091");
KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
List<PartitionInfo> parts = consumer.partitionsFor("topic");
List<TopicPartition> partitions= new ArrayList<>();
for (PartitionInfo p : parts) {
            partitions.add(new TopicPartition(topic, p.partition()));
        }
consumer.assign(partitions);        

Map<TopicPartition, Long> endOffsets = consumer.endOffsets(assignment);
Map<TopicPartition, Long> beginningOffsets = consumer.beginningOffsets(assignment);
long totalMessaheCnt=0;
for (TopicPartition tp : offsets.keySet()) {
totalMessaheCnt += endOffsets.get(tp)-beginningOffsets.get(tp)
}

Answer 16

如果您需要为一个消费者组中的所有消费者（或不同消费者组）计算结果，另一种选择是使用管理客户端并从主题/分区偏移量中减去消费者组偏移量，Kotlin 中的代码示例：

val topicName = "someTopic"
val groupId = "theGroupId"
val admin = Admin.create(kafkaProps.buildAdminProperties()) // Spring KafkaProperties
val parts = admin.describeTopics(listOf(topicName)).values()[topicName]!!.get().partitions()
val topicPartitionOffsets = admin.listOffsets(parts.associate { TopicPartition(topicName, it.partition()) to OffsetSpec.latest() }).all().get()
val consumerGroupOffsets = admin.listConsumerGroupOffsets(groupId)
    .partitionsToOffsetAndMetadata().get()
val highWaterMark = topicPartitionOffsets.map { it.value.offset() }.sum()
val consumerPos = consumerGroupOffsets.map { it.value.offset() }.sum()
val unProcessedMessages = highWaterMark - consumerPos

此外，这里是 LeYAUable 示例代码的工作版本，它仅使用常规（非管理员）客户端：

val partitions = consumer.partitionsFor("topicName")
        .map { TopicPartition(it.topic(), it.partition()) }
val highWaterMark = consumer.endOffsets(partitions).values.sum()
val consumerPosition = consumer.beginningOffsets(partitions).values.sum()
val msgCount = highWaterMark - consumerPosition

不过，这只会为您提供此特定消费者的偏移量！ 通常需要注意的是，在压缩主题时这是不精确的。

Answer 17

我自己没有尝试过，但这似乎是有道理的。

您还可以使用kafka.tools.ConsumerOffsetChecker ( source )。

Answer 18

我发现最简单的方法是使用 Kafdrop REST API /topic/topicName并指定 key: "Accept" / value: "application/json"标头以获取 JSON 响应。

这在此处记录。

Answer 19

您可以使用kafkatool 。 请检查此链接-> http://www.kafkatool.com/download.html

Kafka Tool 是一个用于管理和使用 Apache Kafka 集群的 GUI 应用程序。 它提供了一个直观的 UI，允许人们快速查看 Kafka 集群中的对象以及存储在集群主题中的消息。

Java，如何在 apache kafka 中获取主题中的消息数

问题描述

17 个解决方案

解决方案1
121 2016-02-15 20:02:04

解决方案2
41 已采纳 2015-02-19 21:57:45

解决方案3
29 2019-02-19 09:29:05

解决方案4
23 2016-07-19 09:40:43

解决方案5
20 2018-04-29 04:26:16

解决方案6
10 2016-02-21 10:54:50

解决方案7
9 2016-08-31 14:00:15

解决方案8
7 2017-11-15 17:34:04

解决方案9
7 2018-08-06 14:37:06

解决方案10
5 2016-10-27 11:02:56

解决方案11
5 2020-05-20 15:30:36

解决方案12
3 2018-01-05 06:38:48

解决方案13
2 2018-08-20 09:25:43

解决方案14
1 2018-08-20 15:18:23

解决方案15
0 2019-10-28 05:33:59

解决方案16
0 2022-06-01 07:46:25

解决方案17
-1 2016-02-02 21:30:21

解决方案18
-1 2018-10-10 16:23:36

解决方案19
-1 2019-09-23 06:16:38

Java，如何在 apache kafka 中获取主题中的消息数

问题描述

17 个解决方案

解决方案1 121 2016-02-15 20:02:04

解决方案2 41 已采纳 2015-02-19 21:57:45

解决方案3 29 2019-02-19 09:29:05

解决方案4 23 2016-07-19 09:40:43

解决方案5 20 2018-04-29 04:26:16

解决方案6 10 2016-02-21 10:54:50

解决方案7 9 2016-08-31 14:00:15

解决方案8 7 2017-11-15 17:34:04

解决方案9 7 2018-08-06 14:37:06

解决方案10 5 2016-10-27 11:02:56

解决方案11 5 2020-05-20 15:30:36

解决方案12 3 2018-01-05 06:38:48

解决方案13 2 2018-08-20 09:25:43

解决方案14 1 2018-08-20 15:18:23

解决方案15 0 2019-10-28 05:33:59

解决方案16 0 2022-06-01 07:46:25

解决方案17 -1 2016-02-02 21:30:21

解决方案18 -1 2018-10-10 16:23:36

解决方案19 -1 2019-09-23 06:16:38

解决方案1
121 2016-02-15 20:02:04

解决方案2
41 已采纳 2015-02-19 21:57:45

解决方案3
29 2019-02-19 09:29:05

解决方案4
23 2016-07-19 09:40:43

解决方案5
20 2018-04-29 04:26:16

解决方案6
10 2016-02-21 10:54:50

解决方案7
9 2016-08-31 14:00:15

解决方案8
7 2017-11-15 17:34:04

解决方案9
7 2018-08-06 14:37:06

解决方案10
5 2016-10-27 11:02:56

解决方案11
5 2020-05-20 15:30:36

解决方案12
3 2018-01-05 06:38:48

解决方案13
2 2018-08-20 09:25:43

解决方案14
1 2018-08-20 15:18:23

解决方案15
0 2019-10-28 05:33:59

解决方案16
0 2022-06-01 07:46:25

解决方案17
-1 2016-02-02 21:30:21

解决方案18
-1 2018-10-10 16:23:36

解决方案19
-1 2019-09-23 06:16:38