繁体   English   中英

Spark执行程序上的并发任务

[英]Concurrent tasks on a Spark executor

什么决定可以在Spark执行器上同时运行多少个任务? 也许这是某种线程池和共享内存资源?

哪些参数控制该行为?

这是否意味着在执行程序中使用的代码应始终编写为线程安全的?

什么决定可以在Spark执行器上同时运行多少个任务?

Spark将特定执行器上的任务数映射到分配给它的内核数。 默认情况下,Spark将一个内核分配给一个任务,该任务由spark.task.cpus参数控制,该参数默认为1。

这是否意味着在执行程序中使用的代码应始终编写为线程安全的?

不能。通常,使用RDD或DataFrame / Set的目的是使您可以在转换内部进行工作,而无需共享全局资源。 当您拥有在单个执行程序进程中并行执行的全局资源时,应该考虑线程安全性,当在同一执行程序上执行多个任务时可能会发生这种情况。

控制并行执行的相关参数为:

spark.executor.instances >执行者数

spark.executor.cores >每个执行者的内核数

spark.task.cpus >每个CPU的任务数

但是并行执行多个任务并不意味着您需要线程安全的代码,因为这些任务彼此独立(它们不共享变量)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM