簡體   English   中英

Spark客戶端重新連接到YARN集群

[英]Spark client reconnect to YARN cluster

從Spark官方文檔( http://spark.apache.org/docs/1.2.0/running-on-yarn.html ):

在yarn-cluster模式下,Spark驅動程序在應用程序主進程內運行,該進程由群集上的YARN管理,並且客戶端可以在啟動應用程序后消失。

客戶端是否有辦法稍后重新連接到驅動程序以收集結果?

我知道沒有簡單的方法。

廣義上講,yarn-cluster模式對於生產作業很有意義,而yarn-client模式對於希望立即查看應用程序輸出的交互式和調試用途很有意義。

在生產工作中,最簡單的方法可能是讓驅動程序將結果發送到某個地方(例如,將結果寫入HDFS,記錄...)。

通常您可以使用以下命令查看日志

yarn logs -applicationId <app ID>

檢查https://spark.apache.org/docs/2.2.0/running-on-yarn.html

如果啟用了日志聚合(使用yarn.log-aggregation-enable配置),則將容器日志復制到HDFS並在本地計算機上刪除。 可以使用yarn logs命令從群集中的任何位置查看這些日志。

 yarn logs -applicationId <app ID> 

將從給定應用程序的所有容器中打印出所有日志文件的內容

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM