簡體   English   中英

如何向Sagemaker端點添加健康檢查?

[英]How can I add a health check to a Sagemaker Endpoint?

我的sagemaker端點具有/ ping,並且根據AWS Cloudwatch大約每5秒就會ping通:

10.32.0.1 - - [01/Feb/2018:08:08:35 +0000] "GET /ping HTTP/1.1" 200 1 "-" "AHC/2.0"

但是,如果執行此ping操作失敗,我看不到會發生什么。 在哪里可以配置健康檢查?

Amazon SageMaker是一項托管服務,服務團隊的責任是確保其可用。 他們正在監視您的端點,並將在需要時為您替換容器和實例。

您可以使用CloudWatch指標( https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html )來監視端點的性能,但它更多地針對了實例的正確選擇類型和您要擁有的實例數量(您的成本),而不是(ping)可用性。

如果在創建端點期間ping持續失敗,則我們會將容器視為不正常,並通過錯誤消息使端點失敗:

“ ClientError:生產變型[xxx]的主容器未通過ping健康檢查。請檢查CloudWatch日志中的此端點。”

如果在創建端點后ping持續失敗(端點已啟動並正在運行),我們將盡力替換實例,同時使端點保持服務。

這是文檔頁面: https : //docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-inference-code.html#your-algorithms-inference-algo-ping-requests

您可以實施更復雜的健康檢查。 但是,ping響應應在2秒鍾內返回超時。

希望這可以幫助!

-Han

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM