繁体   English   中英

如果我们减少每个执行程序的内核数量并增加执行程序的数量,spark 如何管理 IO 性能

[英]How spark manages IO perfomnce if we reduce the number of cores per executor and incease number of executors

根据我的研究,每当我们运行 spark 作业时,我们不应该运行具有超过 5 个内核的执行程序,如果我们将内核增加到超出限制,作业将因糟糕的 I/O 吞吐量而受到影响。

我的疑问是,如果我们增加执行程序的数量并减少内核,即使这些执行程序最终会在同一台物理机器中,并且这些执行程序将从同一个磁盘读取并写入同一个磁盘,为什么这不会导致I/O 吞吐量问题。

可以考虑Apache Spark:核心数量 vs. 执行器数量

用例供参考。

执行器中的核心就像线程。 所以就像如果我们增加并行性可以完成更多的工作一样,我们应该始终牢记它是有限度的。 因为我们必须从这些并行任务中收集结果。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM