繁体 English 中英

SPARK独立集群模式下的工作者数

[英]Number of workers in SPARK standalone cluster mode

原文 2014-12-01 06:21:11 7 1 apache-spark

如何确定Spark独立集群模式下的工作人员数量？ 当我在独立集群模式下添加工作线程时，持续时间将减少。

例如，对于我的输入数据3.5 G，WordCount需要3.8分钟。 但是，我添加了一个内存为4 G的工作线程后，将需要2.6分钟。

添加工作人员来调整火花是否合适？ 我正在考虑这样做的风险。

我的环境设置如下

内存128 G，16 CPU for 9 VM
Centos下
Hadoop 2.5.0-cdh5.2.0
火花1.1.0

输入数据信息

HDFS的3.5 G数据文件

1 个解决方案

您可以调整执行程序（JVM的数量及其内存）以及任务的数量。 如果您正在做的事情可以从并行性中受益，则可以通过配置旋转更多的执行程序，并增加任务数量（通过在代码中调用分区/合并等）。

设置并行性时，请考虑是否主要执行IO或计算等。一般而言， Spark建议每个CPU内核执行2-3个任务

spark独立集群：如何限制工人数量？

[英]spark standalone cluster: how to limit number of workers?

Spark Standalone 集群中的 worker、executor、core 是什么？

[英]What are workers, executors, cores in Spark Standalone cluster?

Spark独立模式在集群中不起作用

[英]Spark Standalone Mode not working in a cluster

Spark 独立模式：工人没有正确停止

[英]Spark Standalone Mode: Workers not stopping properly

在Spark独立集群中运行具有多个工作程序的分布式Spark Job Server

[英]Running a distributed Spark Job Server with multiple workers in a Spark standalone cluster

以独立模式在异构集群上运行 Spark

[英]Running Spark on heterogeneous cluster in standalone mode

Spark群集：无HDFS的独立模式

[英]Spark cluster: Standalone mode without HDFS

Apache Spark：以独立集群模式读取文件

[英]Apache Spark : Reading file in Standalone cluster mode

具有Apache Spark的Docker容器处于独立群集模式

[英]Docker Container with Apache Spark in standalone cluster mode

SparklyR 与独立 Spark 集群的连接仅连接到 2/6 工作人员

[英]SparklyR connection to standalone spark cluster only connecting to 2/6 workers

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 spark独立集群：如何限制工人数量？ Spark Standalone 集群中的 worker、executor、core 是什么？ Spark独立模式在集群中不起作用 Spark 独立模式：工人没有正确停止在Spark独立集群中运行具有多个工作程序的分布式Spark Job Server 以独立模式在异构集群上运行 Spark Spark群集：无HDFS的独立模式 Apache Spark：以独立集群模式读取文件具有Apache Spark的Docker容器处于独立群集模式 SparklyR 与独立 Spark 集群的连接仅连接到 2/6 工作人员

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM