繁体   English   中英

Kubernetes CronJob - Prometheus 警报

[英]Kubernetes CronJob - Prometheus alerts

我正在尝试弄清楚如何使用 kube-state-metrics 为我的 kubernetes cronjob 创建 Prometheus 警报以用于以下场景。

  1. 如果我的 cronjob 失败,发送警报,一分钟后如果它仍然失败或存在另一个失败的 cronjob,继续每 5 分钟发送一次警报,否则解决。
  2. 如果我的 cronjob 运行超过一分钟,请发送警报。

我试过count_over_time(kube_job_failed[1m]) > 0这给了我一个失败警报,但从未自行解决。

任何指导将不胜感激。

使用以下查询自行解决警报。

increase(kube_job_status_failed{job=~"mytestjob-.*"}[5m]) > 1

请参阅是否有一种方法可以使用 prometheus 监视 kube cron 作业

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM