簡體 English 中英

我們如何評估政策梯度方法中的每個回報？

[英]How do we assess each reward in the return in Policy Gradient Methods?

原文 2019-06-10 13:25:10 3 1 reinforcement-learning/ policy-gradient-descent

您好，StackOverflow社區，

我在強化學習中遇到了政策梯度方法的問題。

在政策梯度方法中，我們根據從該步驟開始的回報（即總回報）來增加/減少行動的對數概率。 因此，如果我們的回報很高，我們會增加它，但我在這一步有問題。

假設我們在回報中有三個獎勵。 雖然所有這三個獎勵的總和很高，但第二個獎勵真的很糟糕。

我們如何處理這個問題？ 我們如何分別評估每個獎勵？ 是否有此政策梯度方法的替代版本？

1 個解決方案

這是一個多目標問題，獎勵不是標量而是矢量。 根據定義，在經典意義上沒有單一的最優策略，但是存在一組帕累托最優策略，即，你不能在沒有丟失某些東西的情況下更好地執行目標（例如，第一次獎勵的最大總和）。另一個目標（其他獎勵的最大金額）。 在優化（通常是遺傳算法）和RL中，有許多方法可以解決多目標問題。 天真地，您可以通過線性加權將獎勵應用於獎勵，但這實在是效率低下。 更復雜的方法在政策參數空間中學習多方面（例如，這）。

強化學習中政策梯度下降的獎勵功能

[英]Reward function for Policy Gradient Descent in Reinforcement Learning

強化學習策略梯度有兩種不同的獎勵更新方法？

[英]Reinforcement Learning Policy Gradient two different update method with reward?

開放式AI健身房Cartpole的政策梯度方法

[英]Policy gradient methods for Open AI Gym Cartpole

我們如何從梯度目標中推導出我們的損失函數？

[英]How do we derive our loss function from the gradient objective?

如何解決策略梯度中的零概率問題？

[英]How to solve the zero probability problem in the policy gradient?

Tensorflow-如何使用策略梯度計算損失

[英]Tensorflow - How to compute loss with policy gradient

如何使softmax與政策梯度一起工作？

[英]How to make softmax work with policy gradient?

政策梯度方法和基於神經網絡的行動價值方法有什么區別？

[英]What is the difference between policy gradient methods and neural network-based action-value methods?

獎勵政策在強化學習中的重要性是什么？

[英]What is importance of reward policy in Reinforcement learninig?

政策梯度行動維度

[英]Policy Gradient Action Dimension

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 強化學習中政策梯度下降的獎勵功能強化學習策略梯度有兩種不同的獎勵更新方法？開放式AI健身房Cartpole的政策梯度方法我們如何從梯度目標中推導出我們的損失函數？如何解決策略梯度中的零概率問題？ Tensorflow-如何使用策略梯度計算損失如何使softmax與政策梯度一起工作？政策梯度方法和基於神經網絡的行動價值方法有什么區別？獎勵政策在強化學習中的重要性是什么？政策梯度行動維度

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM