簡體   English   中英

AWS sagemaker 培訓工作 (Tensorflow) 在 Epoch 1 停止

[英]AWS sagemaker training job (Tensorflow) halts at Epoch 1

我正在嘗試使用自定義數據集訓練 Maskrcnn。 該代碼在同一 docker 容器中的本地計算機上運行良好,但是,當我使用 aws sagemaker 時,它會卡在第一個時期。

在 sagemaker notebook 上看到的用於訓練作業的錯誤日志

我正在使用 Tensorflow 2 實現 https 提供的 github 代碼://github.com/simone-viozzi/Mask-RCNN-training-with-docker-containers-on-Sagemaker

正如 Gili 在評論中提到的,您可以嘗試他指出的示例或將問題報告給開發人員 - https://github.com/simone-viozzi/Mask-RCNN-training-with-docker-containers-on-Sagemaker /問題

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM