如何在一个微批量的 Spark 结构化流中设置批量大小

Question

I am reading streaming data from Kafka source, but all the data from kafka is read in a single micro batch.我正在从 Kafka 源读取流数据，但是来自 kafka 的所有数据都是在一个微批处理中读取的。

spark.readStream.format("kafka").option("kafka.bootstrap.servers",bootstrap_servers).option("subscribe", topics).option("startingOffsets", "earliest").load()

Which parameter or option is used to set max batch size in one micro-batch of spark structured streaming?哪个参数或选项用于在一个微批次的 spark 结构化流中设置最大批量大小？

Answer 1

use maxOffsetsPerTrigger to limit the no of messages.使用maxOffsetsPerTrigger来限制消息的数量。

as per spark doc "maxOffsetsPerTrigger - Rate limit on maximum number of offsets processed per trigger interval. The specified total number of offsets will be proportionally split across topicPartitions of different volume."根据 spark doc “maxOffsetsPerTrigger - 每个触发间隔处理的最大偏移数的速率限制。指定的偏移总数将按比例分配到不同卷的 topicPartitions。”

如何在一个微批量的 Spark 结构化流中设置批量大小

问题描述

1 个解决方案

解决方案1
2 2020-05-31 18:34:56

如何在一个微批量的 Spark 结构化流中设置批量大小

问题描述

1 个解决方案

解决方案1 2 2020-05-31 18:34:56

解决方案1
2 2020-05-31 18:34:56