簡體 English 中英

Spark 執行器、任務和分區

[英]Spark executors, tasks and partitions

原文 2019-11-09 18:44:27 9 1 apache-spark/ pyspark

隨着我不斷閱讀有關 Spark 架構和調度的在線資源，我開始變得更加困惑。 一個資源說：一個階段中的任務數與該階段中最后一個RDD中的分區數相同。 另一方面： Spark 將特定 Executor 上的任務數映射到分配給它的核心數。 所以，第一個資源說如果我有 1000 個分區，那么無論我的機器是什么，我都會有 1000 個任務。 在第二種情況下，如果我有 4 核機器和 1000 個分區，那該怎么辦？ 我會有4個任務？ 那么數據是如何處理的呢？

另一個困惑：每個工作人員一次只能處理一個任務，而執行程序可以在其生命周期內並行和順序運行多個任務。 那么任務是順序的還是並行的？

1 個解決方案

任務數由 RDD/DataFrame 的分區數給出
執行程序可以並行處理的任務數由其核心數給出，除非spark.task.cpus配置為 1 以外的值（這是默認值）

因此，將任務視為必須處理的一些（獨立）工作塊。 它們肯定可以並行運行

因此，如果您有 1000 個分區和 5 個執行程序，每個執行程序有 4 個核心，則通常會有 20 個任務並行運行

Spark執行程序，分區內存不足

[英]Spark executors,partitions out of memory

spark如何將分區分配給executor

[英]How spark distributes partitions to executors

Spark：執行者有不同的任務

[英]Spark: Executors have different tasks

何時以及如何在執行程序上分配spark分區

[英]When and how does spark distribute partitions on executors

Spark --num-executors和分區數

[英]Spark --num-executors and number of partitions

當分區數與執行器數不匹配時，如何處理Spark執行器？

[英]How to handle Spark Executors when number of partitions do not match no of Executors?

Spark中的任務是如何分配分區的

[英]How are partitions assigned to tasks in Spark

Spark：增加任務/分區的數量

[英]Spark: Increase the number of tasks/partitions

為什么Spark將所有任務發送給兩個執行者？

[英]Why is Spark sending all tasks to two executors?

Spark將任務分配給多個執行者

[英]Spark distribute tasks over several executors

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Spark執行程序，分區內存不足 spark如何將分區分配給executor Spark：執行者有不同的任務何時以及如何在執行程序上分配spark分區 Spark --num-executors和分區數當分區數與執行器數不匹配時，如何處理Spark執行器？ Spark中的任務是如何分配分區的 Spark：增加任務/分區的數量為什么Spark將所有任務發送給兩個執行者？ Spark將任務分配給多個執行者

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM