簡體   English   中英

Prometheus 黑盒探測有用的指標

[英]Prometheus blackbox probe helpful metrics

我有大約 1000 個使用 HTTP 探測的目標。

job="http_2xx", env="prod", instance="x.x.x.x"
job="http_2xx", env="test", instance="y.y.y.y"
job="http_2xx", env="dev", instance="z.z.z.z"

我想知道目標:

  1. 過去 10 分鍾內 env 的失敗率。
  2. env 在過去 10 分鍾內的失敗率增加。
  3. 好奇以下是做什么的:
sum(increase(probe_success{job="http_2xx"}[10m]))

rate(probe_success{job="http_2xx", env="prod"}[5m]) * 100

我已經達到的最接近的是在 10 分鍾內通過 env 找到操作:

avg(avg_over_time(probe_success{job="http_2xx", env="prod"}[10m]) * 100)
  1. 過去 10 分鍾內 env 的失敗率。 最簡單的方法是:

    sum(rate(probe_success{job="http_2xx"}[10m]) * 100) by (env)

    這將返回您成功探測的百分比,您可以反向添加*(-1) +100

  2. 計算超過 10m 的速率和超過 10m 的速率增加似乎是多余的,在上述查詢中increase function 對我不起作用。 如果需要,您可以將速率 function 替換為increase

  3. 第一個查詢非常接近,它將計算 10m 周期內成功探測的增加。 您可以通過添加== 0並通過“env”變量對其求和來使其顯示失敗探針的增加

    sum(increase(probe_success{job="http_2xx"} == 0 [10m])) by (env)

    您的第二個查詢將為 prod 環境返回超過 5m 的成功請求百分比

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM