繁体   English   中英

SPARK Partitions 和 Worker Cores 有什么区别?

[英]What is the difference between SPARK Partitions and Worker Cores?

我使用Standalone Spark Cluster来处理几个文件。 当我执行驱动程序时,数据是在每个工人上使用它的核心处理的。

现在,我已经阅读了Partitions ,但我不明白它是否与 Worker Cores 不同。

设置cores numberpartition numbers有区别吗?

简单视图:分区与核心数

当你调用一个 RDD 的动作时,

  • 为它创建了一个“作业”。 所以,Job 是一个提交给 spark 的工作。
  • 工作分为基于 n shuffle 边界的“STAGE”!!!
  • 每个阶段根据 RDD 上的分区数量进一步划分为任务。 所以Task是spark的最小工作单元。
  • 现在,可以同时执行多少个这些任务取决于可用的“核心数”!!!

分区(或任务)是指一个工作单元。 如果你有一个 200G 的 hadoop 文件作为 RDD 加载并按 128M 分块(Spark 默认),那么你在这个 RDD 中有大约 2000 个分区。 核心数决定了一次可以处理多少个分区,最多 2000 个(以分区/任务数为上限)可以并行执行此 RDD。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM