簡體 English 中英

為什么 tensorflow 中的 tanh 梯度是 `grad = dy * (1 - y*y)`

[英]Why gradient of tanh in tensorflow is `grad = dy * (1 - y*y)`

原文 2020-06-29 08:28:27 6 1 tensorflow/ math/ deep-learning/ gradient

tf.raw_ops.TanhGrad說grad = dy * (1 - y*y) ，其中y = tanh(x) 。

但我認為由於dy / dx = 1 - y*y ，其中y = tanh(x) ， grad 應該是dy / (1 - y*y) 。 我哪里錯了？

1 個解決方案

像dy / dx這樣的表達式是導數的數學符號，它不是實際的分數。 像使用分子和分母一樣單獨移動dy或dx是沒有意義的。

在數學上，已知d(tanh(x))/dx = 1 - (tanh(x))^2 。 TensorFlow “向后”計算梯度（所謂的反向傳播，或更一般的反向自動微分）。 這意味着，一般來說，我們將在計算“外部” function g(tanh(x))的梯度的步驟之后計算tanh(x)的梯度。 g表示應用於tanh的 output 以達到計算梯度的值的所有操作。 這個 function g的導數，根據鏈式法則，是d(g(tanh(x)))/dx = d(g(tanh(x))/d(tanh(x)) * d(tanh(x))/dx . 第一個因子d(g(tanh(x))/d(tanh(x))是直到tanh的反向累積梯度，即所有這些后續操作的導數，並且是function 文檔中dy的值。因此，您只需計算d(tanh(x))/dx （即(1 - y * y) ，因為y = tanh(x) ）並將其乘以給定dy 。然后，結果值將進一步傳播回最初產生輸入x到tanh的操作，並且它將成為該梯度計算中的dy值，依此類推，直到達到梯度源.

計算具有相同y大小的張量流中的梯度（dy / dx）

[英]compute the gradient (dy/dx) in tensorflow with the same size of y

為什么 tanh function 在 tensorflow 和 pytorch 中返回不同？

[英]Why tanh function return different in tensorflow and pytorch?

下面如何計算 dy（Tensorflow 中的上游梯度）？

[英]How dy(upstream gradient in Tensorflow) is getting calculated below?

Tensorflow中的自定義漸變操作的grad參數是否始終是一個矩陣？

[英]Is the grad parameter of custom gradient ops in Tensorflow always a matrix of ones?

為什么tensorflow和keras SimpleRNN圖層默認激活tanh

[英]Why do tensorflow and keras SimpleRNN layers have a default activation of tanh

為什么一個 tensorflow 模型對相同的數據預測不同的概率和 Y？

[英]Why one tensorflow model predicts different probs and Y for the same data?

具有量化值的Tensorflow tanh

[英]Tensorflow tanh with quantized values

第一梯度下降：如何歸一化X和Y？

[英]First gradient descent : how to normalize X and Y?

模塊“tensorflow”沒有屬性“tanh”

[英]module 'tensorflow' has no attribute 'tanh'

如何在tensorflow-r1.0中的grad_and_var元組上剪裁梯度范數？

[英]How to clip the gradient norm on the grad_and_var tuple in tensorflow-r1.0?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 計算具有相同y大小的張量流中的梯度（dy / dx）為什么 tanh function 在 tensorflow 和 pytorch 中返回不同？下面如何計算 dy（Tensorflow 中的上游梯度）？ Tensorflow中的自定義漸變操作的grad參數是否始終是一個矩陣？為什么tensorflow和keras SimpleRNN圖層默認激活tanh 為什么一個 tensorflow 模型對相同的數據預測不同的概率和 Y？具有量化值的Tensorflow tanh 第一梯度下降：如何歸一化X和Y？模塊“tensorflow”沒有屬性“tanh” 如何在tensorflow-r1.0中的grad_and_var元組上剪裁梯度范數？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM