繁体 English 中英

手动指定火花执行器的数量

[英]Manually specify number of spark executors

原文 2019-11-04 18:43:27 9 1 apache-spark/ pyspark/ spark-submit

我有 1000 个镶木地板文件，我希望一个执行者在中间阶段处理每个文件。 有没有一种方法可以手动分配这个属性？ 默认情况下，spark 最终会为作业创建 34 个任务，最终会出现偏差

1 个解决方案

您可以对输入的 DataFrame/RDD 进行repartition ，并对生成的 DF/RDD 进行操作。

changedDF = inputDF.repartition(500)

而不是使用 inputDF 使用changedDF来执行您的操作，您应该获得 500 次任务。

如果需要，在 DataFrame 您还可以提及要重新分区的列列表changedDF = inputDF.repartition(inputDF.col1)

Spark：如何指定持有RDD的执行者数量？

[英]Spark: How to specify the number of executors to hold an RDD?

Apache Spark执行者数量

[英]Apache Spark number of executors

Spark本地模式下的执行程序数

[英]Number of Executors in Spark Local Mode

作业使用的执行者的火花数

[英]Spark number of executors that job uses

增加Spark实例的执行者数量

[英]Increase Number of Executors for a spark instance

当我执行textFile时，Spark我可以手动指定分区数吗

[英]Spark can I manually specify the number of partitions when do textFile

当分区数与执行器数不匹配时，如何处理Spark执行器？

[英]How to handle Spark Executors when number of partitions do not match no of Executors?

spark-shell的缺省执行程序和核心数

[英]Default number of executors and cores for spark-shell

使用Sparklyr和R获取活动的Spark执行程序的数量

[英]Get number of active spark executors with sparklyr and R

Spark Standalone Number Executors/Cores 控制

[英]Spark Standalone Number Executors/Cores Control

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Spark：如何指定持有RDD的执行者数量？ Apache Spark执行者数量 Spark本地模式下的执行程序数作业使用的执行者的火花数增加Spark实例的执行者数量当我执行textFile时，Spark我可以手动指定分区数吗当分区数与执行器数不匹配时，如何处理Spark执行器？ spark-shell的缺省执行程序和核心数使用Sparklyr和R获取活动的Spark执行程序的数量 Spark Standalone Number Executors/Cores 控制

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM