![](/img/trans.png)
[英]If I keep the total number of cores consistent, how should I choose the number of executors and number of cores per executor?
[英]How spark manages IO perfomnce if we reduce the number of cores per executor and incease number of executors
根据我的研究,每当我们运行 spark 作业时,我们不应该运行具有超过 5 个内核的执行程序,如果我们将内核增加到超出限制,作业将因糟糕的 I/O 吞吐量而受到影响。
我的疑问是,如果我们增加执行程序的数量并减少内核,即使这些执行程序最终会在同一台物理机器中,并且这些执行程序将从同一个磁盘读取并写入同一个磁盘,为什么这不会导致I/O 吞吐量问题。
可以考虑Apache Spark:核心数量 vs. 执行器数量
用例供参考。
执行器中的核心就像线程。 所以就像如果我们增加并行性可以完成更多的工作一样,我们应该始终牢记它是有限度的。 因为我们必须从这些并行任务中收集结果。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.