![](/img/trans.png)
[英]Yarn report flink job as FINISHED and SUCCEED when flink job failure
[英]Flink Yarn infinite restart on task failure
我正在使用以下配置在 AWS yarn 集群上运行 flink 流作业
主节点 - 1,核心节点 - 1,任务节点 - 3
我启用了
jobmanager.execution.failover-strategy: region
由于我的任务节点之一失败并尝试在区域级别重新启动(在我的情况下是在任务节点级别),因此我启用了重新启动策略作为 fixedDelayrestart 5 次尝试延迟 5 分钟,并且我的检查点被禁用。
如果您看到图像,它的重新启动比预期的要多。
有人能帮我理解为什么它会这样吗?
该文档有一节关于“重新启动流水线区域故障转移策略” [1]。 底线是,如果您有一个流作业,其中的操作符对流进行物理分区,例如keyBy
,则所有任务最终都将位于同一区域中,因此所有任务都将作为一个整体重新启动。 对于批处理作业,您需要将ExecutionMode
[2] 配置为BATCH
或BATCH_FORCED
。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.