![](/img/trans.png)
[英]Computational Complexity of Self-Attention in the Transformer Model
[英]Mismatch between computational complexity of Additive attention and RNN cell
根據
Attention is all you need
論文:Additive attention(Bahdanau 在 RNN 中使用的經典注意力)使用具有單個隱藏層的前饋網絡計算兼容性 function。 雖然兩者在理論復雜性上相似,...
事實上,我們可以在這里看到加法注意力和 dot-prod(transformer 注意力)的計算復雜度都是n²*d
。
然而,如果我們仔細觀察附加注意力,它實際上是一個具有n*d²
計算復雜度的 RNN 單元(根據同一張表)。
因此,加法注意力的計算復雜度不應該是n*d²
而不是n²*d
嗎?
你聲稱加性注意力實際上是一個 RNN 單元,這讓你誤入歧途。 加法注意是在編碼器和解碼器 RNN“之間”使用完全連接的淺層(1 個隱藏層)前饋神經網絡實現的,如下所示,並在 Bahdanau 等人的原始論文中進行了描述。 (第 3 頁) [1] :
... alignment model對 position
j
和 output 在 positioni
的輸入匹配程度進行評分。 該分數基於 RNN 隱藏 states_i − 1
(就在發出y_i
之前,等式(4))和輸入句子的第j
個注釋h_j
。我們將 alignment model
a
參數化為前饋神經網絡,它與所提出系統的所有其他組件聯合訓練......
圖 1:來自[2]的注意力機制圖。
因此,alignment 分是通過將隱藏的解碼器 state 的輸出添加到編碼器輸出來計算的。 所以附加注意力不是 RNN 單元。
[1] Bahdanau, D.、Cho, K. 和 Bengio, Y.,2014。通過聯合學習對齊和翻譯進行神經機器翻譯。 arXiv 預印本 arXiv:1409.0473。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.