Flink Yarn 在任务失败时无限重启

Question

我正在使用以下配置在 AWS yarn 集群上运行 flink 流作业

主节点 - 1，核心节点 - 1，任务节点 - 3

我启用了

jobmanager.execution.failover-strategy: region

由于我的任务节点之一失败并尝试在区域级别重新启动（在我的情况下是在任务节点级别），因此我启用了重新启动策略作为 fixedDelayrestart 5 次尝试延迟 5 分钟，并且我的检查点被禁用。

参考图片

如果您看到图像，它的重新启动比预期的要多。

有人能帮我理解为什么它会这样吗？

Answer 1

该文档有一节关于“重新启动流水线区域故障转移策略” [1]。 底线是，如果您有一个流作业，其中的操作符对流进行物理分区，例如keyBy ，则所有任务最终都将位于同一区域中，因此所有任务都将作为一个整体重新启动。 对于批处理作业，您需要将ExecutionMode [2] 配置为BATCH或BATCH_FORCED 。

[1] https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/task_failure_recovery.html#restart-pipelined-region-failover-strategy

[2] https://ci.apache.org/projects/flink/flink-docs-release-1.9/api/java/org/apache/flink/api/common/ExecutionMode.html

Flink Yarn 在任务失败时无限重启

问题描述

1 个解决方案

解决方案1
1 2019-11-25 13:44:58

Flink Yarn 在任务失败时无限重启

问题描述

1 个解决方案

解决方案1 1 2019-11-25 13:44:58

解决方案1
1 2019-11-25 13:44:58