簡體   English   中英

Flink Yarn 在任務失敗時無限重啟

[英]Flink Yarn infinite restart on task failure

我正在使用以下配置在 AWS yarn 集群上運行 flink 流作業

主節點 - 1,核心節點 - 1,任務節點 - 3

我啟用了

jobmanager.execution.failover-strategy: region

由於我的任務節點之一失敗並嘗試在區域級別重新啟動(在我的情況下是在任務節點級別),因此我啟用了重新啟動策略作為 fixedDelayrestart 5 次嘗試延遲 5 分鍾,並且我的檢查點被禁用。

參考圖片

如果您看到圖像,它的重新啟動比預期的要多。

有人能幫我理解為什么它會這樣嗎?

該文檔有一節關於“重新啟動流水線區域故障轉移策略” [1]。 底線是,如果您有一個流作業,其中的操作符對流進行物理分區,例如keyBy ,則所有任務最終都將位於同一區域中,因此所有任務都將作為一個整體重新啟動。 對於批處理作業,您需要將ExecutionMode [2] 配置為BATCHBATCH_FORCED

[1] https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/task_failure_recovery.html#restart-pipelined-region-failover-strategy

[2] https://ci.apache.org/projects/flink/flink-docs-release-1.9/api/java/org/apache/flink/api/common/ExecutionMode.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM