繁体   English   中英

最小批量交叉熵的平均值以优化张量流

[英]Mean of minibatch cross-entropy to optimize in tensorflow

我试图遵循Martin Gorner关于使用TensorFlow的演讲以及官方TensorFlow文档中教程

我很困惑,为什么在Gorner的演讲中,他在标签和预测之间使用点积的负和。 但是在TensorFlow教程中,它使用相同的方法,然后将其除以获取每个小批量的平均值。

基本上,只要您提高学习率,两种方法都可以使用,但是我不了解方法不同的原因。

使用平均值而不是总和,使目标函数的大小对于最小批量大小的选择不变。 因此,当您决定更改小批量的大小时,您可以期望与以前相同的学习率仍然可以正常工作。

对于其他超参数(例如L2正则化因子)也是如此。

它的规模很大,似乎均值可以控制非常不同的变量。 使用总和时,无法保证变量的谐波标度。 但是用mean ,您可以确定没有very different

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM