繁体 English 中英

在 Yarn 集群模式下如何处理 Spark App 的异常驱动程序终止

[英]How is abnormal Driver termination handled for a Spark App in Yarn cluster mode

原文 2020-04-08 13:11:16 7 2 apache-spark/ amazon-emr

我们将 AWS EMR 用于 Spark 作业。 我们所有的作业都以纱线集群模式提交，因此驱动程序将在集群节点之一中运行。 我们使用按需节点作为主节点，使用点实例作为核心节点。 现在，尽管我们几乎总是选择中断率 < 5% 的实例，但有时会发生很大一部分集群节点过早终止（可能是因为更高的需求）。

所以，我想知道，在上述情况下，如果包含驱动程序进程的节点出现故障会发生什么？ 在这种情况下，火花工作有恢复的机会吗？ 还是工作一去不复返？

2 个解决方案

Spark 驱动程序是单点故障，因为它为正在运行的应用程序保存所有集群 state。

在实践中，非临时存储可用于检查点批处理应用程序经过昂贵昂贵的转换。 话虽如此，在这种情况下尝试重新启动是可以做到的，但是当我研究它时，至少可以说很难。 我前段时间用我的名字问过这样一个问题，你可以找到它。 我很有技术，但觉得：天哪，工作辛苦了。

所以，恢复意味着滚动你自己的东西，或者接受重新运行。 自从我上次评估 EMR 以来，我发现驱动程序可以在 Master 上运行并且可以进行故障转移，但据我所知，这与您所希望的不同。

EMR 为 Yarn 中的 CORE 节点提供节点平衡。 您的 spark 驱动程序/应用程序主节点仅在 CORE 节点中创建。 HDFS 也仅驻留在核心节点中。 因此，为了以最佳方式处理您的情况，您可以考虑同时使用 CORE 和 TASK 组。 你可以做些什么来解决这个问题 -

大师：按需
核心：按需。 最小实例数可以是 1。
任务：以最小的 EBS 体积进行自动缩放。 在这种情况下，最小实例数可以为 0。

这将降低您的成本，同时确保包含驱动程序进程的节点永远不会关闭。

https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-master-core-task-nodes.html

有关故障转移过程如何在纱线群集模式下为Spark驱动程序（及其YARN容器）工作的资源/文档

[英]Resources/Documentation on how does the failover process work for the Spark Driver (and its YARN Container) in yarn-cluster mode

提交 PySpark 应用程序以在集群模式下触发 YARN

[英]submitting PySpark app to spark on YARN in cluster mode

在 spark yarn 集群模式下使用超过 1 个驱动核有什么好处？

[英]What is the benefit of using more then 1 driver core in spark yarn cluster mode?

如何在集群模式下将Spark应用提交到YARN？

[英]How to submit Spark application to YARN in cluster mode?

如何找出在纱簇模式下以spark模式运行的任务的驱动程序进程节点

[英]how to find out driver process node for tasks running in spark in yarn-cluster mode

在YARN上以群集模式运行Spark应用程序时未使用SparkConf设置

[英]SparkConf settings not used when running Spark app in cluster mode on YARN

如何：火花纱簇

[英]how to : spark yarn cluster

如何使用集群模式在纱线上并行运行多个火花作业？

[英]How to run multiple spark jobs parallel on yarn with cluster mode?

如何在AWS的纱簇模式下查看火花执行状态

[英]How to see spark executing status in yarn-cluster mode on AWS

YARN如何在集群模式下了解Apache Spark中的数据位置

[英]How YARN knows data locality in Apache spark in cluster mode

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 有关故障转移过程如何在纱线群集模式下为Spark驱动程序（及其YARN容器）工作的资源/文档提交 PySpark 应用程序以在集群模式下触发 YARN 在 spark yarn 集群模式下使用超过 1 个驱动核有什么好处？如何在集群模式下将Spark应用提交到YARN？如何找出在纱簇模式下以spark模式运行的任务的驱动程序进程节点在YARN上以群集模式运行Spark应用程序时未使用SparkConf设置如何：火花纱簇如何使用集群模式在纱线上并行运行多个火花作业？如何在AWS的纱簇模式下查看火花执行状态 YARN如何在集群模式下了解Apache Spark中的数据位置

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM