如果報告 prometheus gauge 指標超過 3 小時，則發出警報

Question

我每個月左右在基礎設施中的每台主機上運行一個進程。 每當進程在任何主機上運行時，它每分鍾發送一次度量“process_running{instance=<>}”，當進程退出時，顯然沒有度量從該主機發送到 prom。 現在我想在進程卡在任何主機上時發出警報 - 運行時間 > 3 小時。 我嘗試了 absent() 和 metric<> 本身的各種組合。 但是當我按（實例）分組時它不起作用

Answer 1

如果您知道 Prometheus 為給定instance記錄的指標process_running的樣本之間的間隔（此間隔稱為scrape_interval ），則可以使用以下查詢來確定時間序列，該時間序列在期間持續超過 3 小時最后一天：

(count_over_time(process_running[1d]) * scrape_interval) > 3*3600

如果scrape_interval未知，則 Prometheus 不提供確定時間序列持續時間的能力。 在這種情況下，您可以使用 VictoriaMetrics 的lifetime()函數（這是我正在研究的類似 Prometheus 的監控系統）。 例如，以下MetricsQL查詢返回時間序列，這些時間序列在最后一天接收樣本超過 3 小時：

lifetime(process_running[1d]) > 3h

如果報告 prometheus gauge 指標超過 3 小時，則發出警報

問題描述

1 個解決方案

解決方案1
0 2022-12-23 01:30:37

如果報告 prometheus gauge 指標超過 3 小時，則發出警報

問題描述

1 個解決方案

解決方案1 0 2022-12-23 01:30:37

解決方案1
0 2022-12-23 01:30:37