[英]AWS Sagemaker - Custom Training Job not saving Model output
[英]AWS SageMaker Training Job not saving model output
從狀態進展來看,訓練圖像下載似乎在 15:33 UTC 完成,屆時停止條件已根據您指定的MaxRuntimeInSeconds
參數啟動。 從那時起,保存任何可用的模型工件需要 2 分鍾(15:33 到 15:35),但在您的情況下,訓練過程根本沒有發生。 唯一要做的就是下載預先構建的圖像(包含 ML 算法)。 請參考文檔中的以下幾行內容,其中說正在保存的模型取決於訓練過程所處的狀態。也許您可以嘗試增加 MaxRuntimeInSeconds 並再次運行作業。 另外,請檢查您設置的MaxWaitTimeInSeconds
值(如果有)。它必須等於或大於MaxRuntimeInSeconds
。
請從AWS 文檔中找到摘錄:
“Amazon SageMaker 提供的訓練算法會在可能的情況下自動保存模型訓練作業的中間結果。這種保存工件的嘗試只是一種盡力而為的情況,因為模型可能無法處於可以保存的狀態。例如,如果訓練剛剛開始,模型可能還沒有准備好保存。”
如果超過MaxRuntimeInSeconds
,則模型上傳只是盡力而為,並且實際上取決於算法是否在終止之前將任何狀態保存到/opt/ml/model
。
Stopping
階段 15:33 到 15:35 之間的兩分鍾等待時間表示發送到算法的SIGTERM
和SIGKILL
信號之間的最長時間( 有關更多詳細信息,請參閱SageMaker 文檔)。 如果您的算法捕獲 SIGTERM,則應該將其用作信號以優雅地保存其工作並在 SageMaker 平台在 2 分鍾后用 SIGKILL 信號強行殺死它之前關閉。
鑒於Stopping
步驟中的等待時間正好是 2 分鍾,並且Uploading
步驟從 15:35 開始並在 15:35 幾乎立即完成,很可能您的算法沒有利用 SIGTERM 警告,並且有沒有保存到/opt/ml/model
。 為了給您一個關於是否確實如此的明確答案,請創建一個SageMaker 論壇帖子,SageMaker 團隊可以私信您以收集您工作的詳細信息。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.