繁体   English   中英

Spark reparition()函数增加了每个执行者的任务数量,如何增加执行者的数量

[英]Spark reparition() function increases number of tasks per executor, how to increase number of executor

我正在使用30gb ram(12核引擎)的IBM Server,我提供了所有可激发的核,但是它仍然仅使用1核,我在加载文件时尝试过并成功通过命令

val name_db_rdd = sc.textFile("input_file.csv",12)

并能够为启动作业提供所有12个内核,但是我想将中间操作之间的操作拆分给执行者,以便它可以使用所有12个内核。

图片描述

val new_rdd = rdd.repartition(12)

在此处输入图片说明

正如您在该图中看到的那样,只有1个执行程序正在运行,并且重新分区功能将数据拆分为一个执行程序执行的许多任务。

这取决于您如何启动作业,但是您在启动Spark作业时可能希望在命令行中添加--num-executors。

就像是

spark-submit
    --num-executors 10 \
    --driver-memory 2g \
    --executor-memory 2g \
    --executor-cores 1 \

可能适合您。

尽管它们提到的某些开关是特定于纱线的,但请查看“ 在纱线运行火花”以获取更多详细信息。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM