在 spark-submit 工作中应该选择多少执行器和核心？

Question

我有一个火花结构化的流媒体作业，它执行以下操作：

来自 S3 文件夹的流包含 json 的文件（许多 json 行......像 1200 万行）

过滤它们以排除几百万

使用每个 json 调用外部 HTTP api（使用并发）

将响应数据写入 Kafka 主题

我的源 S3 文件夹最多可以包含 48 个或更多文件，因此我使用的是：

.option("maxFilesPerTrigger", 1)

我的 EMR 集群是：（1 个主节点 + 2 个从节点）（每个节点的类型：m5.2xlarge）

每个配备 8 核和 32GB 的 memory。

在我的火花工作中，我想知道这些选项应该是什么？

spark-submit \
--master yarn \
--conf spark.dynamicAllocation.enabled=false \
--executor-memory ??g \
--driver-memory ??g \
--executor-cores ?? \
--num-executors ?? \
--queue default \
--deploy-mode cluster \
....

我想平均分配负载，因为我一直在玩它，而且我在 HTTP 端点上看到的每秒事务似乎是向上/向下，我认为这是我的参数的直接结果。 我也不想占用整个集群。 有任何想法吗？

图表显示被调用的 HTTP 端点的每分钟事务。

Answer 1

这取决于您的时间要求，其他工作......首先您应该尝试使用完整的集群。

1 主 + 2 从 = 3。
核心 = 3 * 8 = 24
memory = 3 * 32 = 96

推荐核心数：5，我们将减少到 4 以不剩下核心。
--executor-cores 4

执行器数量 = 24/4 = 6（1 个主控器和 5 个执行器）
--num-executors 5

执行程序内存/驱动程序内存：(6/96)- ~10% = 14g

最终参数：

spark-submit \
--master yarn \
--conf spark.dynamicAllocation.enabled=false \
--executor-memory 14g \
--driver-memory 14g \
--executor-cores 4 \
--num-executors 5 \
--queue default \
--deploy-mode cluster \
....

您可以轻松地从驱动程序中删除一些 Go 以将其提供给执行者..

在 spark-submit 工作中应该选择多少执行器和核心？

问题描述

1 个解决方案

解决方案1
0 已采纳 2021-02-19 23:32:57

在 spark-submit 工作中应该选择多少执行器和核心？

问题描述

1 个解决方案

解决方案1 0 已采纳 2021-02-19 23:32:57

解决方案1
0 已采纳 2021-02-19 23:32:57