繁体   English   中英

如何使用tf.train.Saver()方法recover_last_checkpoints?

[英]How to use method recover_last_checkpoints of tf.train.Saver()?

文档写道应该将检查点路径列表传递给它,但如何获取列表? 通过硬编码? 不,这是一个愚蠢的做法。 通过解析协议缓冲区文件(模型目录中名为checkpoint的文件)? 但是tensorflow没有实现解析器,是吗? 所以我必须自己实施一个吗? 获得检查点路径列表是否有良好的做法?

我提出这个问题,因为这些天我被一件事困扰。 如您所知,由于某种原因,为期数天的培训可能会崩溃,我必须从最新的检查点恢复。 恢复培训很简单,因为我只需要编写以下代码:

restorer = tf.train.Saver()
restorer.restore(sess, latest_checkpoint)

我可以使用tf.train.latest_checkpoint()来硬编码latest_checkpoint ,或者稍微更聪明一些。

但是,在我恢复训练后出现问题。 那些在崩溃之前创建的旧检查点文件留在那里。 Saver仅管理在一次运行中创建的检查点文件。 我希望它也可以管理以前创建的检查点文件,这样它们就会被自动删除,而且我不必每次都手动删除它们。 我认为这种重复工作真的很傻。

然后我在类tf.train.Saver()找到recover_last_checkpoints方法,它允许Saver管理旧的检查点。 但它使用起来并不方便。 那么有什么好的解决方案吗?

正如@isarandi在评论中提到的,最简单的方法是首先使用get_checkpoint_state‌然后all_model_checkpoi‌​nt_paths恢复所有检查点路径,这基本上是一个未记录的功能。 然后,您可以恢复最新状态:

states = tf.train.get_checkpoint_state‌​(your_checkpoint_dir‌​)
checkpoint_paths = states.all_model_checkpoi‌​nt_paths
saver.recover_last_checkpoints(checkpoint_paths)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM