Flink Yarn 在任務失敗時無限重啟

Question

我正在使用以下配置在 AWS yarn 集群上運行 flink 流作業

主節點 - 1，核心節點 - 1，任務節點 - 3

我啟用了

jobmanager.execution.failover-strategy: region

由於我的任務節點之一失敗並嘗試在區域級別重新啟動（在我的情況下是在任務節點級別），因此我啟用了重新啟動策略作為 fixedDelayrestart 5 次嘗試延遲 5 分鍾，並且我的檢查點被禁用。

參考圖片

如果您看到圖像，它的重新啟動比預期的要多。

有人能幫我理解為什么它會這樣嗎？

Answer 1

該文檔有一節關於“重新啟動流水線區域故障轉移策略” [1]。 底線是，如果您有一個流作業，其中的操作符對流進行物理分區，例如keyBy ，則所有任務最終都將位於同一區域中，因此所有任務都將作為一個整體重新啟動。 對於批處理作業，您需要將ExecutionMode [2] 配置為BATCH或BATCH_FORCED 。

[1] https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/task_failure_recovery.html#restart-pipelined-region-failover-strategy

[2] https://ci.apache.org/projects/flink/flink-docs-release-1.9/api/java/org/apache/flink/api/common/ExecutionMode.html

Flink Yarn 在任務失敗時無限重啟

問題描述

1 個解決方案

解決方案1
1 2019-11-25 13:44:58

Flink Yarn 在任務失敗時無限重啟

問題描述

1 個解決方案

解決方案1 1 2019-11-25 13:44:58

解決方案1
1 2019-11-25 13:44:58