簡體   English   中英

我們如何評估政策梯度方法中的每個回報?

[英]How do we assess each reward in the return in Policy Gradient Methods?

您好,StackOverflow社區,

我在強化學習中遇到了政策梯度方法的問題。

在政策梯度方法中,我們根據從該步驟開始的回報(即總回報)來增加/減少行動的對數概率。 因此,如果我們的回報很高,我們會增加它,但我在這一步有問題。

假設我們在回報中有三個獎勵。 雖然所有這三個獎勵的總和很高,但第二個獎勵真的很糟糕。

我們如何處理這個問題? 我們如何分別評估每個獎勵? 是否有此政策梯度方法的替代版本?

這是一個多目標問題 ,獎勵不是標量而是矢量。 根據定義,在經典意義上沒有單一的最優策略,但是存在一組帕累托最優策略,即,你不能在沒有丟失某些東西的情況下更好地執行目標(例如,第一次獎勵的最大總和)。另一個目標(其他獎勵的最大金額)。 在優化(通常是遺傳算法 )和RL中,有許多方法可以解決多目標問題。 天真地,您可以通過線性加權將獎勵應用於獎勵,但這實在是效率低下。 更復雜的方法在政策參數空間中學習多方面(例如, )。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM