[英]How to reconnect to the ongoing process on GoogleColab
我最近开始使用Google Colab来训练我的CNN模型。 训练一次需要大约10个多小时。 但是在这10个多小时里我不能待在同一个地方,所以我总是给笔记本电脑断电,让这个过程继续进行。
我的代码会自动保存模型。 我发现当我与Colab断开连接时,该过程仍然在断开连接后保存模型。
以下是问题:
当我尝试重新连接到Colab笔记本时,它总是停留在“INITIALIZAING”阶段,无法连接。 我确信这个过程正在运行。 我怎么知道这个过程是否过度?
有没有办法重新连接到正在进行的过程? 在训练期间观察训练损失对我来说很好。
抱歉我的英语不好,非常感谢。
似乎没有正常的方法来做到这一点。 但是您可以使用当前的培训时期编号将模型保存到Google云端硬盘,因此当您在Google云端硬盘上看到类似“my_model_epoch_1000”的内容时,您就会知道该过程结束了。
将损失结果输出到保存在驱动器中的日志文件,并定期检查此文件。
您可以运行以下培训流程:
!log_file = "/content/drive/My Drive/path/log.log"
!python train.py > "${log_file}"
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.