[英]ClearML multiple tasks in single script changes logged value names
我为自定义超参数搜索训练了具有不同配置的多个模型。 我使用 pytorch_lightning 及其日志记录(TensorboardLogger)。 在 Task.init() 之后运行我的训练脚本时,ClearML 会自动创建一个任务并将记录器 output 连接到服务器。
我记录每个应变阶段train
, val
并在每个时期test
以下标量: loss
, acc
和iou
当我有多个配置时,例如networkA
和networkB
第一个训练将其值记录到loss
、 acc
和iou
,但第二个记录到networkB:loss
、 networkB:acc
和networkB:iou
。 这使得价值观无法比较。
我的任务初始化训练循环如下所示:
names = ['networkA', networkB']
for name in names:
task = Task.init(project_name="NetworkProject", task_name=name)
pl_train(name)
task.close()
方法 pl_train 是使用 Pytorch Ligtning 进行整个训练的包装器。 此方法中没有 ClearML 代码。
您是否有任何提示,如何使用完全分离的任务在脚本中正确使用循环?
编辑:ClearML 版本是 0.17.4。 问题已在主分支中修复。
免责声明 我是 ClearML(前身为 Trains)团队的一员。
pytorch_lightning
正在为每个实验创建一个新的 Tensorboard。 当 ClearML 记录 TB 标量并捕获再次重新发送的相同标量时,它会添加一个前缀,因此如果您报告相同的指标,它不会覆盖前一个指标。 一个很好的例子是在训练阶段和验证阶段报告loss
标量(产生“损失”和“验证:损失”)。 可能是task.close()
调用没有清除以前的日志,所以它“认为”这是同一个实验,因此将前缀networkB
添加到loss
中。 只要您在训练完成后关闭任务,您就应该使用相同的指标/变量(标题/系列)记录所有实验。 我建议打开一个 GitHub 问题,这可能应该被认为是一个错误。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.