[英]Is it possible to cache the application jar when running Apache Spark applications on a cluster?
我有一個Apache Spark MLlib Java應用程序,該應用程序應該在集群上以不同的輸入值運行很多次。 是否可以將應用程序jar緩存在群集上並重新使用以減少啟動時間,網絡負載和組件耦合?
使用過的集群管理器有什么區別嗎?
如果對應用程序jar進行了緩存,是否可以在我的應用程序的不同實例中使用相同的RDD緩存?
Vainilla Spark無法做到這一點(在撰寫本文時-Spark發展迅速)。
Ooyala提供的Spark-JobServer完全可以滿足您的需求。 它向罐子注冊以進行順序作業提交,並提供了按名稱緩存RDD的其他功能。 請注意,在Spark群集上,Spark-JobServer充當Spark驅動程序。 當執行給定任務時,工作人員仍然需要從驅動程序加載jar。
在這里查看文檔: https : //github.com/ooyala/spark-jobserver
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.