[英]Spark client reconnect to YARN cluster
從Spark官方文檔( http://spark.apache.org/docs/1.2.0/running-on-yarn.html ):
在yarn-cluster模式下,Spark驅動程序在應用程序主進程內運行,該進程由群集上的YARN管理,並且客戶端可以在啟動應用程序后消失。
客戶端是否有辦法稍后重新連接到驅動程序以收集結果?
我知道沒有簡單的方法。
廣義上講,yarn-cluster模式對於生產作業很有意義,而yarn-client模式對於希望立即查看應用程序輸出的交互式和調試用途很有意義。
在生產工作中,最簡單的方法可能是讓驅動程序將結果發送到某個地方(例如,將結果寫入HDFS,記錄...)。
通常您可以使用以下命令查看日志
yarn logs -applicationId <app ID>
檢查https://spark.apache.org/docs/2.2.0/running-on-yarn.html
如果啟用了日志聚合(使用yarn.log-aggregation-enable配置),則將容器日志復制到HDFS並在本地計算機上刪除。 可以使用yarn logs命令從群集中的任何位置查看這些日志。
yarn logs -applicationId <app ID>
將從給定應用程序的所有容器中打印出所有日志文件的內容
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.