繁体   English   中英

AWS SageMaker 训练作业不保存模型输出

[英]AWS SageMaker Training Job not saving model output

我正在 SageMaker 上运行训练作业。 作业未完全完成并达到 MaxRuntimeInSeconds 停止条件。 当工作停止时,文档说工件仍将被保存。 我在下面附上了我的培训工作的状态进展。 看起来训练工作正确完成。 但是,输出 S3 文件夹是空的。 关于这里出了什么问题的任何想法? 训练数据位于同一个桶中,所以它应该有它需要的一切。

状态进展

从状态进展来看,训练图像下载似乎在 15:33 UTC 完成,届时停止条件已根据您指定的MaxRuntimeInSeconds参数启动。 从那时起,保存任何可用的模型工件需要 2 分钟(15:33 到 15:35),但在您的情况下,训练过程根本没有发生。 唯一要做的就是下载预先构建的图像(包含 ML 算法)。 请参考文档中的以下几行内容,其中说正在保存的模型取决于训练过程所处的状态。也许您可以尝试增加 MaxRuntimeInSeconds 并再次运行作业。 另外,请检查您设置的MaxWaitTimeInSeconds值(如果有)。它必须等于或大于MaxRuntimeInSeconds

请从AWS 文档中找到摘录:

“Amazon SageMaker 提供的训练算法会在可能的情况下自动保存模型训练作业的中间结果。这种保存工件的尝试只是一种尽力而为的情况,因为模型可能无法处于可以保存的状态。例如,如果训练刚刚开始,模型可能还没有准备好保存。”

如果超过MaxRuntimeInSeconds ,则模型上传只是尽力而为,并且实际上取决于算法是否在终止之前将任何状态保存到/opt/ml/model

Stopping阶段 15:33 到 15:35 之间的两分钟等待时间表示发送到算法的SIGTERMSIGKILL信号之间的最长时间( 有关更多详细信息,请参阅SageMaker 文档)。 如果您的算法捕获 SIGTERM,则应该将其用作信号以优雅地保存其工作并在 SageMaker 平台在 2 分钟后用 SIGKILL 信号强行杀死它之前关闭。

鉴于Stopping步骤中的等待时间正好是 2 分钟,并且Uploading步骤从 15:35 开始并在 15:35 几乎立即完成,很可能您的算法没有利用 SIGTERM 警告,并且有没有保存到/opt/ml/model 为了给您一个关于是否确实如此的明确答案,请创建一个SageMaker 论坛帖子,SageMaker 团队可以私信您以收集您工作的详细信息。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM