繁体   English   中英

如何重新连接到GoogleColab上正在进行的流程

[英]How to reconnect to the ongoing process on GoogleColab

我最近开始使用Google Colab来训练我的CNN模型。 训练一次需要大约10个多小时。 但是在这10个多小时里我不能待在同一个地方,所以我总是给笔记本电脑断电,让这个过程继续进行。

我的代码会自动保存模型。 我发现当我与Colab断开连接时,该过程仍然在断开连接后保存模型。

以下是问题:

  1. 当我尝试重新连接到Colab笔记本时,它总是停留在“INITIALIZAING”阶段,无法连接。 我确信这个过程正在运行。 我怎么知道这个过程是否过度?

  2. 有没有办法重新连接到正在进行的过程? 在训练期间观察训练损失对我来说很好。

抱歉我的英语不好,非常感谢。

  1. 第一个问题:从运行时菜单重启运行时
  2. 第二个问题:我认为您可以使用张量板来监控您的工作。

似乎没有正常的方法来做到这一点。 但是您可以使用当前的培训时期编号将模型保存到Google云端硬盘,因此当您在Google云端硬盘上看到类似“my_model_epoch_1000”的内容时,您就会知道该过程结束了。

将损失结果输出到保存在驱动器中的日志文件,并定期检查此文件。

您可以运行以下培训流程:

!log_file = "/content/drive/My Drive/path/log.log"

!python train.py > "${log_file}"

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM