從外部檢查點問題中恢復 Flink

Question

我正在使用從docker-flink安裝的 ECS 內運行的 Flink。 我在 flink-conf.yaml 中通過state.checkpoints.dir將外部檢查點啟用到 AWS S3 到 S3。

現在根據此處的 Flink 文檔，如果我們想在發生故障時從檢查點恢復，我們必須說bin/flink run -s:checkpointMetaDataPath [:runArgs]但我使用FLINK_HOME/bin standalone-job.sh start-foreground 。 所以我無法弄清楚如果失敗，我的 Flink 工作將如何從外部檢查點恢復。

我們真的需要一些從檢查點恢復的配置選項嗎？ JM 不能作為重啟策略的一部分自動從 state 存儲中讀取最后的偏移量嗎？ 我是 Flink 的新手。

Answer 1

單獨提到的 Dockerfile 不會啟動 Flink 作業。 它只會啟動一個能夠執行 Flink 作業的 Flink session 集群。 下一步是使用bin/flink run提交作業。 一旦你有一個通過StreamExecutionEnvironment.enableCheckpointing啟用檢查點的作業，提交並運行它將創建到配置位置的檢查點。

如果您啟用了保留檢查點，那么您可以取消作業並通過bin/flink run -s...從檢查點恢復它。

作業集群

如果您正在運行每個作業集群，其中映像已經包含用戶代碼 jars，那么您可以通過使用--fromSavepoint <SAVEPOINT_PATH>作為命令行參數啟動映像來從保存點恢復。 請注意， <SAVEPOINT_PATH>需要可以從運行作業管理器的容器中訪問。

更新

為了在使用standalone-job.sh時從檢查點恢復，您必須調用

FLINK_HOME/bin/standalone-job.sh start-foreground --fromSavepoint <SAVEPOINT/CHECKPOINT_PATH>

從外部檢查點問題中恢復 Flink

問題描述

1 個解決方案

解決方案1
1 已采納 2020-04-03 11:57:55

作業集群

更新

從外部檢查點問題中恢復 Flink

問題描述

1 個解決方案

解決方案1 1 已采納 2020-04-03 11:57:55

作業集群

更新

解決方案1
1 已采納 2020-04-03 11:57:55