繁体   English   中英

Flink Yarn 在任务失败时无限重启

[英]Flink Yarn infinite restart on task failure

我正在使用以下配置在 AWS yarn 集群上运行 flink 流作业

主节点 - 1,核心节点 - 1,任务节点 - 3

我启用了

jobmanager.execution.failover-strategy: region

由于我的任务节点之一失败并尝试在区域级别重新启动(在我的情况下是在任务节点级别),因此我启用了重新启动策略作为 fixedDelayrestart 5 次尝试延迟 5 分钟,并且我的检查点被禁用。

参考图片

如果您看到图像,它的重新启动比预期的要多。

有人能帮我理解为什么它会这样吗?

该文档有一节关于“重新启动流水线区域故障转移策略” [1]。 底线是,如果您有一个流作业,其中的操作符对流进行物理分区,例如keyBy ,则所有任务最终都将位于同一区域中,因此所有任务都将作为一个整体重新启动。 对于批处理作业,您需要将ExecutionMode [2] 配置为BATCHBATCH_FORCED

[1] https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/task_failure_recovery.html#restart-pipelined-region-failover-strategy

[2] https://ci.apache.org/projects/flink/flink-docs-release-1.9/api/java/org/apache/flink/api/common/ExecutionMode.html

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM