[英]Keras Activation Functions Tanh Vs Sigmoid
我有一個使用二進制數據的 LSTM,即標簽都是 0 或 1。
這將導致我使用 sigmoid 激活 function,但是當我這樣做時,它的性能明顯低於具有相同數據的 tanh 激活 ZC1C425268E68385D1AB5074C17A94F 的相同 model。
為什么即使數據不在 tanh 激活 function 所需的 (-1,1) 范圍內,tanh 激活 function 也會產生更好的精度?
Sigmoid 激活 Function 准確度:訓練准確度:60.32 % 驗證准確度:72.98 %
Tanh 激活 Function 准確度:訓練准確度:83.41 % 驗證准確度:82.82 %
所有 rest 的代碼完全相同。
謝謝。
如果訓練集上每個輸入變量的平均值接近於零,收斂速度通常會更快。 tanh 的均值為零。 您的數據可能已標准化並且平均值接近於零?
在 (0, 1] 區間內,如果梯度隨時間 t 減小,則 sigmoid 給出更好的結果。如果梯度增加,則 tanh 激活 function。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.