[英]Mean of minibatch cross-entropy to optimize in tensorflow
我试图遵循Martin Gorner关于使用TensorFlow的演讲以及官方TensorFlow文档中的教程 。
我很困惑,为什么在Gorner的演讲中,他在标签和预测之间使用点积的负和。 但是在TensorFlow教程中,它使用相同的方法,然后将其除以获取每个小批量的平均值。
基本上,只要您提高学习率,两种方法都可以使用,但是我不了解方法不同的原因。
使用平均值而不是总和,使目标函数的大小对于最小批量大小的选择不变。 因此,当您决定更改小批量的大小时,您可以期望与以前相同的学习率仍然可以正常工作。
对于其他超参数(例如L2正则化因子)也是如此。
它的规模很大,似乎均值可以控制非常不同的变量。 使用总和时,无法保证变量的谐波标度。 但是用mean
,您可以确定没有very different
。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.