簡體   English   中英

AWS EMR從屬節點中找不到模塊

[英]Module not found in AWS EMR slave nodes

我目前正在AWS EMR集群上運行spark-submit作業。 我開始遇到python包問題,在導入過程中找不到模塊。

一個明顯的解決方案是進入每個單獨的節點並安裝我的依賴項。 如果可能的話,我想避免這種情況。 我能做的另一個解決方案是編寫一個引導腳本並創建一個新的集群。

似乎工作的最后一個解決方案是我也可以pip install我的依賴項並壓縮它們並通過--py-files通過spark-submit作業傳遞它們。 雖然隨着我的要求的增加,這可能會變得很麻煩。

我可能會忽略的任何其他建議或簡單修復?

bootstrap是解決方案。 編寫一個shell腳本,pip安裝所有必需的軟件包並將其放入bootstrap選項中。 創建集群時,它將在所有節點上執行。 請記住,如果引導程序花費的時間太長(1小時左右?),它將失敗。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM