簡體   English   中英

AWS Sagemaker 培訓作業卡在進行中 state

[英]AWS Sagemaker training job stuck in progress state

我昨天創建了一個訓練作業,和往常一樣,只是添加了一些訓練數據。 在過去的兩年中,我對此沒有任何問題(完全相同的程序和代碼)。 這一次在 14 小時后或多或少只是停滯不前。 培訓工作仍在“處理中”,但從那時起,cloudwatch 沒有記錄任何內容。 現在又過了 8 個小時,日志中沒有新條目,沒有錯誤也沒有崩潰。 有人可以解釋一下嗎? 不幸的是,我沒有任何 AWS 支持計划。 從下圖可以看出,上午 11 點之后什么都沒有。

在此處輸入圖像描述

培訓工作應該在接下來的幾個小時內完成,但現在我不確定是否真的在運行(在這種情況下將是一個 cloudwatch 問題)。

更新

訓練工作突然失敗,沒有任何進一步的日志。 原因是

ClientError:工件上傳失敗:錯誤 7:收到的憑據已過期

但是上午 11 點之后,日志中仍然沒有任何內容。 很奇怪。

對於未來的讀者,我可以確認這是很少發生的事情(從那以后我再也沒有經歷過),但這是 AWS 的錯。 相同的數據,相同的算法。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM