[英]How to get metrics of bunches of short-lived Kubernetes jobs
我有一個情況是,將根據用戶請求創建短暫的(從幾秒鍾到1-2分鍾)k8s作業。 我正在嘗試檢索作業運行時指標(如cpu和內存使用情況)。
我想到(並嘗試過)的方法包括:
container_cpu_usage_seconds_total
,但基於拉的scape表示將不包含許多短期作業 /api/v1/nodes/{nodeName}/proxy/metrics/cadvisor
。 盡管幾乎是實時的,但它會返回所有容器,因此我必須手動解析結果並找到所需的內容。 我正在考慮使用作業工人容器旁邊的輕型監視器容器來檢索工人的指標。 但是我不知道這是否是一個好主意,即使這樣,也不知道如何檢索工人的指標。
所以我的問題是:
您建議使用哪種方法來檢索大量短期作業的cpu和內存使用情況?
在編寫時,您使用了普羅米修斯,pushgateway,metrics-server ns查詢/ api / v1 / nodes / {nodeName} / proxy / metrics / cadvisor,如果它們不能滿足您的要求,我建議您使用新的方法來監視和保存集群表現是石蕊。
Prometheus是最常見,最復雜的工具,大多數工程師都可以使用,但是Litmus是一種新工具,專注於工作負載測試,可以保存指標並可以隨時存儲它們。
您可以在這里找到更多信息: litmus 。
有用的文章: litmus-openebs ,它描述的不僅是獲取內存使用率,也不是獲取指標。
然后,您可以在雞蛋中生成圖表。 gnuplot。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.