[英]How to set batch size in one micro-batch of spark structured streaming
I am reading streaming data from Kafka source, but all the data from kafka is read in a single micro batch.我正在从 Kafka 源读取流数据,但是来自 kafka 的所有数据都是在一个微批处理中读取的。
spark.readStream.format("kafka").option("kafka.bootstrap.servers",bootstrap_servers).option("subscribe", topics).option("startingOffsets", "earliest").load()
Which parameter or option is used to set max batch size in one micro-batch of spark structured streaming?哪个参数或选项用于在一个微批次的 spark 结构化流中设置最大批量大小?
use maxOffsetsPerTrigger
to limit the no of messages.使用
maxOffsetsPerTrigger
来限制消息的数量。
as per spark doc "maxOffsetsPerTrigger - Rate limit on maximum number of offsets processed per trigger interval. The specified total number of offsets will be proportionally split across topicPartitions of different volume."根据 spark doc “maxOffsetsPerTrigger - 每个触发间隔处理的最大偏移数的速率限制。指定的偏移总数将按比例分配到不同卷的 topicPartitions。”
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.