簡體   English   中英

如何獲得一堆短暫的Kubernetes職位的指標

[英]How to get metrics of bunches of short-lived Kubernetes jobs

我有一個情況是,將根據用戶請求創建短暫的(從幾秒鍾到1-2分鍾)k8s作業。 我正在嘗試檢索作業運行時指標(如cpu和內存使用情況)。

我想到(並嘗試過)的方法包括:

  1. 普羅米修斯查詢,例如container_cpu_usage_seconds_total ,但基於拉的scape表示將不包含許多短期作業
  2. Pushgateway,但是正如普羅米修斯所建議的, ... Pushgateway的有效用例是用於捕獲服務級批處理作業的結果 ,因此我懷疑這不是合適的情況。
  3. 公制服務器,但公制服務器僅在短暫的作業容器上返回404,導致結果比普羅米修斯更糟。
  4. 直接查詢/api/v1/nodes/{nodeName}/proxy/metrics/cadvisor 盡管幾乎是實時的,但它會返回所有容器,因此我必須手動解析結果並找到所需的內容。

我正在考慮使用作業工人容器旁邊的輕型監視器容器來檢索工人的指標。 但是我不知道這是否是一個好主意,即使這樣,也不知道如何檢索工人的指標。

所以我的問題是:

您建議使用哪種方法來檢索大量短期作業的cpu和內存使用情況?

在編寫時,您使用了普羅米修斯,pushgateway,metrics-server ns查詢/ api / v1 / nodes / {nodeName} / proxy / metrics / cadvisor,如果它們不能滿足您的要求,我建議您使用新的方法來監視和保存集群表現是石蕊。

Prometheus是最常見,最復雜的工具,大多數工程師都可以使用,但是Litmus是一種新工具,專注於工作負載測試,可以保存指標並可以隨時存儲它們。

您可以在這里找到更多信息: litmus

有用的文章: litmus-openebs ,它描述的不僅是獲取內存使用率,也不是獲取指標。

然后,您可以在雞蛋中生成圖表。 gnuplot。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM