[英]How do we assess each reward in the return in Policy Gradient Methods?
您好,StackOverflow社區,
我在強化學習中遇到了政策梯度方法的問題。
在政策梯度方法中,我們根據從該步驟開始的回報(即總回報)來增加/減少行動的對數概率。 因此,如果我們的回報很高,我們會增加它,但我在這一步有問題。
假設我們在回報中有三個獎勵。 雖然所有這三個獎勵的總和很高,但第二個獎勵真的很糟糕。
我們如何處理這個問題? 我們如何分別評估每個獎勵? 是否有此政策梯度方法的替代版本?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.