簡體   English   中英

在集群上運行Apache Spark應用程序時是否可以緩存應用程序jar?

[英]Is it possible to cache the application jar when running Apache Spark applications on a cluster?

我有一個Apache Spark MLlib Java應用程序,該應用程序應該在集群上以不同的輸入值運行很多次。 是否可以將應用程序jar緩存在群集上並重新使用以減少啟動時間,網絡負載和組件耦合?

使用過的集群管理器有什么區別嗎?

如果對應用程序jar進行了緩存,是否可以在我的應用程序的不同實例中使用相同的RDD緩存?

Vainilla Spark無法做到這一點(在撰寫本文時-Spark發展迅速)。

Ooyala提供的Spark-JobServer完全可以滿足您的需求。 它向罐子注冊以進行順序作業提交,並提供了按名稱緩存RDD的其他功能。 請注意,在Spark群集上,Spark-JobServer充當Spark驅動程序。 當執行給定任務時,工作人員仍然需要從驅動程序加載jar。

在這里查看文檔: https : //github.com/ooyala/spark-jobserver

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM