[英]AWS sagemaker training job (Tensorflow) halts at Epoch 1
我正在嘗試使用自定義數據集訓練 Maskrcnn。 該代碼在同一 docker 容器中的本地計算機上運行良好,但是,當我使用 aws sagemaker 時,它會卡在第一個時期。
在 sagemaker notebook 上看到的用於訓練作業的錯誤日志
我正在使用 Tensorflow 2 實現 https 提供的 github 代碼://github.com/simone-viozzi/Mask-RCNN-training-with-docker-containers-on-Sagemaker
正如 Gili 在評論中提到的,您可以嘗試他指出的示例或將問題報告給開發人員 - https://github.com/simone-viozzi/Mask-RCNN-training-with-docker-containers-on-Sagemaker /問題。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.