簡體   English   中英

來自概率分布的argmax比來自softmax的隨機采樣更好的策略?

[英]argmax from probability distribution better policy than random sampling from softmax?

我正在嘗試按照強化學習的方式,通過隨機優化訓練Echo State Network,以進行文本生成,其中優化取決於獎勵信號。

我觀察到,在評估過程中,當我從概率分布中采樣時,布魯特得分大於當我從分布中獲得argmax時。 差異幾乎超過0.10點(BLEU分數通常在0到1之間)。 我不確定為什么會這樣。 需要幫助。

您不必使用argmax函數,因為它是確定性方法。 這樣做的主要問題是,它很容易使您陷入循環。 這意味着,如果文本生成中出現錯誤,則您很可能會繼續走這條路而沒有任何可能。 隨機性允許“跳出”循環。

一個很好的例子來說明這種跳出的需要,例如頁面等級算法。 它使用隨機游走參數,使虛構的沖浪者擺脫困境。

TensorFlow團隊在其Tutos中對此進行了說明(沒有任何理由):

注意:從此分布中采樣很重要,因為采用分布的argmax可以很容易地使模型陷入循環。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM