繁体   English   中英

pyspark结构化流中的startingOffset和endingOffset

[英]startingOffset and endingOffset in pyspark structured-streaming

我正在使用 pyspark 2.4.5 来使用来自 Kafka 的消息。 对于批量查询,有 2 个选项startingOffsetendingOffset可用于读取 Kafka 上的特定消息。 我对 Spark 文档中的示例感到很困惑:

pyspark 和 kafka 之间的集成指南文档

我不明白 JSON 格式的配置示例:

""" {"topicA":{"0":23,"1":-1},"topicB":{"0":-2}} """

我的问题是:

  • 配置"0": 23是什么意思?
  • 此配置用于消费多个主题,如果我只读取 1 个主题 A,那么配置是什么样的?

一个 kafka 主题由多个分区组成,每个分区都有自己的偏移量。 所以{"topicA":{"0":23,"1":-1},"topicB":{"0":-2}}的起始偏移量将意味着:

话题 分割 抵消
主题1 0 23
主题1 1 -1
主题2 1 -2

-1 和 -2 的含义已在文档中指定。 如果你不熟悉 kafka 分区,有很多像这样的很好的解释。

对于单个主题,它很简单: {"topicA":{"0":23,"1":-1}}

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM