繁体 English 中英

Spark Streaming 和 Kafka 集成中的并行任务数

[英]Number Of Parallel Task in Spark Streaming and Kafka Integration

原文 2020-12-23 03:05:02 7 1 scala/ apache-spark/ apache-kafka/ spark-streaming/ spark-kafka-integration

我是 Spark Streaming 的新手。我有一些基本的疑问。有人可以帮我澄清一下吗：

我的消息大小是标准的。每条消息 1Kb。
主题分区数为 30，使用 dstream 方法从 kafka 消费消息。
分配给 spark 作业的核心数为：
( spark.max.cores=6| spark.executor.cores=2)

据我了解，Kafka 分区数 = RDD 分区数：

 In this case dstream approach: dstream.forEachRdd(rdd->{ rdd.forEachPartition{ } **Question**:This loop forEachPartiton will execute 30 times??As there are 30 Kafka partitions

}

另外由于我给了6核，从kafka中并行消耗多少分区
问题：是一次6个分区还是
30/6 =一次5个分区？ 有人可以详细说明这在 dstream 方法中的工作原理吗？

1 个解决方案

“是一次6个分区还是30/6=一次5个分区？”

正如您已经说过的，Direct Stream 中生成的 RDD 将匹配 Kafka 主题的分区数。

在每个微批处理上，Spark 将创建 30 个任务来读取每个分区。 由于您已将最大核心数设置为 6，因此作业能够并行读取 6 个分区。 一旦其中一项任务完成，就可以使用一个新分区。

请记住，即使您在其中一个分区中没有新数据，生成的 RDD 仍然有 30 个分区，所以，是的，循环forEachPartiton将在每个微批次中迭代 30 次。

Spark Streaming + Kafka集成0.8.2.1

[英]Spark Streaming + Kafka Integration 0.8.2.1

Apache Spark Streaming Kafka集成错误JAVA

[英]apache spark streaming kafka integration error JAVA

Spark结构化流Kafka集成偏移管理

[英]Spark Structured Streaming Kafka Integration Offset management

sbt尚未解决的火花流Kafka集成依赖项

[英]sbt unresolved dependency for spark streaming Kafka integration

Spark结构化流+ Kafka集成：MicroBatchExecution PartitionOffsets错误

[英]Spark Structured Streaming + Kafka Integration: MicroBatchExecution PartitionOffsets Error

spark-streaming-kafka-0-10：如何限制Spark分区的数量

[英]spark-streaming-kafka-0-10: How to limit number of Spark partitions

spark，kafka集成问题：对象kafka不是org.apache.spark.streaming的成员

[英]spark, kafka integration issue: object kafka is not a member of org.apache.spark.streaming

Spark Streaming Kafka

[英]Spark Streaming Kafka

在Scala中使用Kafka进行火花流

[英]Spark Streaming with Kafka in Scala

ExceptionInInitializerError Spark流式传输Kafka

[英]ExceptionInInitializerError Spark Streaming Kafka

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Spark Streaming + Kafka集成0.8.2.1 Apache Spark Streaming Kafka集成错误JAVA Spark结构化流Kafka集成偏移管理 sbt尚未解决的火花流Kafka集成依赖项 Spark结构化流+ Kafka集成：MicroBatchExecution PartitionOffsets错误 spark-streaming-kafka-0-10：如何限制Spark分区的数量 spark，kafka集成问题：对象kafka不是org.apache.spark.streaming的成员 Spark Streaming Kafka 在Scala中使用Kafka进行火花流 ExceptionInInitializerError Spark流式传输Kafka

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM