监控 kubernetes pod 健康事件

Question

目前我已经设置了 kubernetes，带有 kube-state-metrics、prometheus 和 loki。 对于大多数事情来说，这确实很好，但我正在努力解决的一件事是找到容器可能重新启动的确切原因。

对于正在运行的 pod，很容易看到，例如，使用kubectl describe pod ，我得到以下事件：

kubectl describe pod pod-name
.....
Events:
  Type     Reason     Age                  From     Message
  ----     ------     ----                 ----     -------
  Warning  Unhealthy  19m (x9 over 3h29m)  kubelet  message-here

这对于排查为什么容器有很多重启非常有用，尤其是在使用探针的情况下。 但也有其他有用的事件。

但是，我看不到任何方法可以在 loki 或 prometheus 中保存此类事件。 但也许我错过了一些东西。 我曾期望kube-state-metrics包含此类信息，但似乎并非如此，我也没有在 Loki 的任何地方看到它。

关于如何保存此类事件的任何提示？

Answer 1

虽然 Prometheus 和 KSM 更关注指标，例如：“N 次 Pod 重启”，但 Loki 可用于捕获事件。

这里有一个很好的概述指南，它使用eventrouter将事件推送到后端（例如 Loki 或 Elasticsearch）

监控 kubernetes pod 健康事件

问题描述

1 个解决方案

解决方案1
2 已采纳 2020-12-18 11:30:26

监控 kubernetes pod 健康事件

问题描述

1 个解决方案

解决方案1 2 已采纳 2020-12-18 11:30:26

解决方案1
2 已采纳 2020-12-18 11:30:26