Spark客戶端重新連接到YARN集群

Question

從Spark官方文檔（ http://spark.apache.org/docs/1.2.0/running-on-yarn.html ）：

在yarn-cluster模式下，Spark驅動程序在應用程序主進程內運行，該進程由群集上的YARN管理，並且客戶端可以在啟動應用程序后消失。

客戶端是否有辦法稍后重新連接到驅動程序以收集結果？

Answer 1

我知道沒有簡單的方法。

廣義上講，yarn-cluster模式對於生產作業很有意義，而yarn-client模式對於希望立即查看應用程序輸出的交互式和調試用途很有意義。

在生產工作中，最簡單的方法可能是讓驅動程序將結果發送到某個地方（例如，將結果寫入HDFS，記錄...）。

Answer 2

通常您可以使用以下命令查看日志

yarn logs -applicationId <app ID>

檢查https://spark.apache.org/docs/2.2.0/running-on-yarn.html

如果啟用了日志聚合（使用yarn.log-aggregation-enable配置），則將容器日志復制到HDFS並在本地計算機上刪除。 可以使用yarn logs命令從群集中的任何位置查看這些日志。
 yarn logs -applicationId <app ID> 
將從給定應用程序的所有容器中打印出所有日志文件的內容

Spark客戶端重新連接到YARN集群

問題描述

2 個解決方案

解決方案1
0 2015-01-15 11:57:25

解決方案2
0 2017-12-28 08:51:56

Spark客戶端重新連接到YARN集群

問題描述

2 個解決方案

解決方案1 0 2015-01-15 11:57:25

解決方案2 0 2017-12-28 08:51:56

解決方案1
0 2015-01-15 11:57:25

解決方案2
0 2017-12-28 08:51:56