簡體   English   中英

AWS SageMaker 訓練作業不保存模型輸出

[英]AWS SageMaker Training Job not saving model output

我正在 SageMaker 上運行訓練作業。 作業未完全完成並達到 MaxRuntimeInSeconds 停止條件。 當工作停止時,文檔說工件仍將被保存。 我在下面附上了我的培訓工作的狀態進展。 看起來訓練工作正確完成。 但是,輸出 S3 文件夾是空的。 關於這里出了什么問題的任何想法? 訓練數據位於同一個桶中,所以它應該有它需要的一切。

狀態進展

從狀態進展來看,訓練圖像下載似乎在 15:33 UTC 完成,屆時停止條件已根據您指定的MaxRuntimeInSeconds參數啟動。 從那時起,保存任何可用的模型工件需要 2 分鍾(15:33 到 15:35),但在您的情況下,訓練過程根本沒有發生。 唯一要做的就是下載預先構建的圖像(包含 ML 算法)。 請參考文檔中的以下幾行內容,其中說正在保存的模型取決於訓練過程所處的狀態。也許您可以嘗試增加 MaxRuntimeInSeconds 並再次運行作業。 另外,請檢查您設置的MaxWaitTimeInSeconds值(如果有)。它必須等於或大於MaxRuntimeInSeconds

請從AWS 文檔中找到摘錄:

“Amazon SageMaker 提供的訓練算法會在可能的情況下自動保存模型訓練作業的中間結果。這種保存工件的嘗試只是一種盡力而為的情況,因為模型可能無法處於可以保存的狀態。例如,如果訓練剛剛開始,模型可能還沒有准備好保存。”

如果超過MaxRuntimeInSeconds ,則模型上傳只是盡力而為,並且實際上取決於算法是否在終止之前將任何狀態保存到/opt/ml/model

Stopping階段 15:33 到 15:35 之間的兩分鍾等待時間表示發送到算法的SIGTERMSIGKILL信號之間的最長時間( 有關更多詳細信息,請參閱SageMaker 文檔)。 如果您的算法捕獲 SIGTERM,則應該將其用作信號以優雅地保存其工作並在 SageMaker 平台在 2 分鍾后用 SIGKILL 信號強行殺死它之前關閉。

鑒於Stopping步驟中的等待時間正好是 2 分鍾,並且Uploading步驟從 15:35 開始並在 15:35 幾乎立即完成,很可能您的算法沒有利用 SIGTERM 警告,並且有沒有保存到/opt/ml/model 為了給您一個關於是否確實如此的明確答案,請創建一個SageMaker 論壇帖子,SageMaker 團隊可以私信您以收集您工作的詳細信息。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM