![](/img/trans.png)
[英]Yarn report flink job as FINISHED and SUCCEED when flink job failure
[英]Flink Yarn infinite restart on task failure
我正在使用以下配置在 AWS yarn 集群上運行 flink 流作業
主節點 - 1,核心節點 - 1,任務節點 - 3
我啟用了
jobmanager.execution.failover-strategy: region
由於我的任務節點之一失敗並嘗試在區域級別重新啟動(在我的情況下是在任務節點級別),因此我啟用了重新啟動策略作為 fixedDelayrestart 5 次嘗試延遲 5 分鍾,並且我的檢查點被禁用。
如果您看到圖像,它的重新啟動比預期的要多。
有人能幫我理解為什么它會這樣嗎?
該文檔有一節關於“重新啟動流水線區域故障轉移策略” [1]。 底線是,如果您有一個流作業,其中的操作符對流進行物理分區,例如keyBy
,則所有任務最終都將位於同一區域中,因此所有任務都將作為一個整體重新啟動。 對於批處理作業,您需要將ExecutionMode
[2] 配置為BATCH
或BATCH_FORCED
。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.