Kafka HLC 应该如何计算主题的分区数量？

Question

我正在使用kafka 节点HighLevelConsumer，并且在启动时总是收到重复消息的问题。

为了保持处理顺序，我的消费者只是将消息附加到工作队列，然后我按顺序处理事件。 如果我达到队列高水位线，我会暂停消费者，禁用自动提交，并在我的客户端代码完全处理每个事件后“手动”提交。

尽管提交，在启动时，我总是从一个或多个分区（取决于我的组中正在运行的其他 HLC 的数量）获得最后一条（先前提交的）消息。 我有点惊讶 HLC 不会给我 (committed+1)，但我决定“忽略”偏移量早于提交的偏移量的消息。 作为快速测试，

offset.fetchCommits('fnord', [{topic:'test', partition: 0}, 
                              {topic:'test', partition: 1}, 
                              {topic:'test', partition: 2}, 
                              {topic:'test', partition: 3}], ...

如果我的有效负载列表与定义的分区数匹配，则此方法有效。 如果超过分区数， [BrokerNotAvailableError: Could not find the leader]出现[BrokerNotAvailableError: Could not find the leader]错误。

如果我想更有力地保证我不会丢失消息，如果我的消息处理是异步的并且可能会失败（即 ETL 作业），我是否正确？ kafka-node 只是发出一个 'message' 事件，无法确认它是否已成功处理。
HighLevelConsumer 将读取最后提交的偏移量（即重复）而不是下一个偏移量的消息是预期的行为吗？
获取主题分区数的最佳方法是什么？

Answer 1

我挖掘了 kafka-node 源，并且有一个未记录的调用我可以用来获取分区信息：

client.loadMetadataForTopics(['test'], function(err, results) {..}

（我不喜欢调用似乎不是公共 API 的文档部分的东西，而且我对返回结果的相当原始的混合数组性质感到不舒服，但它暂时解决了我的问题.)

Kafka HLC 应该如何计算主题的分区数量？

问题描述

1 个解决方案

解决方案1
2 2015-06-12 22:36:57

Kafka HLC 应该如何计算主题的分区数量？

问题描述

1 个解决方案

解决方案1 2 2015-06-12 22:36:57

解决方案1
2 2015-06-12 22:36:57