[英]How to decide the exact number of executors in spark job?Is their any formula for that?
他們的任何公式都是根據輸入文件大小來計算spark作業中執行者的數量。或者我們可以啟動no。 執行者的數量基於hdfs數據塊的數量。 第二個問題是我們可以在同一節點中為同一個火花作業啟動兩個執行器嗎?
實際上,執行程序的數量與您將在作業中使用的文件的數量和大小無關。 執行程序數與每個工作程序中的資源數量(如內核和內存)相關。 您可以在第一個鏈接 , 第二個鏈接和第三個鏈接上閱讀更多關於拇指的規則。 但作為一個建議,通常情況下,如果你在一個工人上設置更多的執行者,它會帶來更好的性能。 找出原因看一看
工作節點中的兩個執行程序之間存在鏈接。 換句話說,當您的作業運行群集節點時,不同的工作節點之間存在交互。 因此,如果在工作節點上可以有多個執行程序,則可以減少此類通信的網絡開銷。 而且,您可以獲得更好的資源利用率。 如果你正確地遵守上述關於執行者數量的鏈接並實施優化,那么你將體驗到高性能的火花作業的精彩運行。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.