[英]Keras Activation Functions Tanh Vs Sigmoid
我有一个使用二进制数据的 LSTM,即标签都是 0 或 1。
这将导致我使用 sigmoid 激活 function,但是当我这样做时,它的性能明显低于具有相同数据的 tanh 激活 ZC1C425268E68385D1AB5074C17A94F 的相同 model。
为什么即使数据不在 tanh 激活 function 所需的 (-1,1) 范围内,tanh 激活 function 也会产生更好的精度?
Sigmoid 激活 Function 准确度:训练准确度:60.32 % 验证准确度:72.98 %
Tanh 激活 Function 准确度:训练准确度:83.41 % 验证准确度:82.82 %
所有 rest 的代码完全相同。
谢谢。
如果训练集上每个输入变量的平均值接近于零,收敛速度通常会更快。 tanh 的均值为零。 您的数据可能已标准化并且平均值接近于零?
在 (0, 1] 区间内,如果梯度随时间 t 减小,则 sigmoid 给出更好的结果。如果梯度增加,则 tanh 激活 function。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.