繁体   English   中英

SPARK独立集群模式下的工作者数

[英]Number of workers in SPARK standalone cluster mode

如何确定Spark独立集群模式下的工作人员数量? 当我在独立集群模式下添加工作线程时,持续时间将减少。

例如,对于我的输入数据3.5 G,WordCount需要3.8分钟。 但是,我添加了一个内存为4 G的工作线程后,将需要2.6分钟。

添加工作人员来调整火花是否合适? 我正在考虑这样做的风险。

我的环境设置如下

  • 内存128 G,16 CPU for 9 VM
  • Centos下
  • Hadoop 2.5.0-cdh5.2.0
  • 火花1.1.0

输入数据信息

  • HDFS的3.5 G数据文件

您可以调整执行程序(JVM的数量及其内存)以及任务的数量。 如果您正在做的事情可以从并行性中受益,则可以通过配置旋转更多的执行程序,并增加任务数量(通过在代码中调用分区/合并等)。

设置并行性时,请考虑是否主要执行IO或计算等。一般而言, Spark建议每个CPU内核执行2-3个任务

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM