簡體 English 中英

來自概率分布的argmax比來自softmax的隨機采樣更好的策略？

[英]argmax from probability distribution better policy than random sampling from softmax?

原文 2019-05-03 04:23:20 2 1 machine-learning/ neural-network/ deep-learning/ nlp/ reinforcement-learning

我正在嘗試按照強化學習的方式，通過隨機優化訓練Echo State Network，以進行文本生成，其中優化取決於獎勵信號。

我觀察到，在評估過程中，當我從概率分布中采樣時，布魯特得分大於當我從分布中獲得argmax時。 差異幾乎超過0.10點（BLEU分數通常在0到1之間）。 我不確定為什么會這樣。 需要幫助。

1 個解決方案

您不必使用argmax函數，因為它是確定性方法。 這樣做的主要問題是，它很容易使您陷入循環。 這意味着，如果文本生成中出現錯誤，則您很可能會繼續走這條路而沒有任何可能。 隨機性允許“跳出”循環。

一個很好的例子來說明這種跳出的需要，例如頁面等級算法。 它使用隨機游走參數，使虛構的沖浪者擺脫困境。

TensorFlow團隊在其Tutos中對此進行了說明（沒有任何理由）：

注意：從此分布中采樣很重要，因為采用分布的argmax可以很容易地使模型陷入循環。

Softmax不會在Python實現中導致概率分布

[英]Softmax not resulting in a probability distribution in Python Implementation

從 TensorFlow model 獲取概率分布曲線

[英]Getting a probability distribution curve from a TensorFlow model

從均勻分布采樣時沒有方法匹配 logpdf

[英]no method matching logpdf when sampling from uniform distribution

使用scikit的學習概率分布學習隨機森林？

[英]Learning probability distribution with scikit learn random forests?

了解 Softmax 概率

[英]Understanding Softmax Probability

機器學習是否有可能從數據集中找到所有元素的概率分布？

[英]Is it possible for machine learning to find the probability distribution of all elements from a data set?

ML 中的概率分布和數據分布

[英]Probability Distribution and Data Distribution in ML

為什么softmax總是提供1.0的概率？

[英]Why does softmax provide always a probability of 1.0?

從高維函數采樣

[英]Sampling from a high dimensional function

盡管設置了隨機狀態和種子，但無法從持久的XGBC分類器復制概率分數

[英]Unable to replicate probability scores from persisted XGBClassifier despite setting random state and seed

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Softmax不會在Python實現中導致概率分布從 TensorFlow model 獲取概率分布曲線從均勻分布采樣時沒有方法匹配 logpdf 使用scikit的學習概率分布學習隨機森林？了解 Softmax 概率機器學習是否有可能從數據集中找到所有元素的概率分布？ ML 中的概率分布和數據分布為什么softmax總是提供1.0的概率？從高維函數采樣盡管設置了隨機狀態和種子，但無法從持久的XGBC分類器復制概率分數

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM