簡體   English   中英

火花容器被紗線殺死

[英]spark container get killed by yarn

我有一個675GB鑲木地板文件的龐大數據集,具有快速壓縮功能,我必須將其與4個,5個表(大小為10 GB)一起加入。 我有一個500多個節點的群集,每個節點具有128 GB的ram,但是我只能運行最多28 GB的執行程序,否則yarn無法分配內存。 請建議我該如何處理這種情況。 目前,我正在運行pyspark 1.6,並且每個節點僅使用26 Gb ram運行1個執行程序。 但是,如果我在蜂巢中運行整個聯接,則需要花費一些時間,但要完成。 我應該如何有效地使用我的集群並通過這種連接進行處理

謝謝sPradeep

您應該嘗試增加spark.sql.shuffle.partitions ,默認情況下為200。此參數控制改組時(例如,在joins,groupBy等期間)的分區(因此是任務)的數量。 嘗試將值設置為5000,看看是否可行。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM