pyspark结构化流中的startingOffset和endingOffset

Question

我正在使用 pyspark 2.4.5 来使用来自 Kafka 的消息。 对于批量查询，有 2 个选项startingOffset和endingOffset可用于读取 Kafka 上的特定消息。 我对 Spark 文档中的示例感到很困惑：

我不明白 JSON 格式的配置示例：

""" {"topicA":{"0":23,"1":-1},"topicB":{"0":-2}} """

我的问题是：

Answer 1

一个 kafka 主题由多个分区组成，每个分区都有自己的偏移量。 所以{"topicA":{"0":23,"1":-1},"topicB":{"0":-2}}的起始偏移量将意味着：

-1 和 -2 的含义已在文档中指定。 如果你不熟悉 kafka 分区，有很多像这样的很好的解释。

对于单个主题，它很简单： {"topicA":{"0":23,"1":-1}}