繁体 English 中英

强化学习中政策梯度下降的奖励功能

[英]Reward function for Policy Gradient Descent in Reinforcement Learning

原文 2018-06-29 00:29:35 4 1 reinforcement-learning/ policy-gradient-descent

我目前正在强化学习的背景下学习有关“政策梯度下降”的知识。 TL; DR，我的问题是： “在下面的情况下，对奖励函数的约束是什么（在理论和实践上），什么是好的奖励函数？”

详细信息：我想实现一个神经网络，该网络应该学会使用Policy Gradient Descent玩简单的棋盘游戏。 我将忽略NN的细节，因为它们无关紧要。 据我了解，Policy Gradient Descent的损失函数为对数似然可能性： loss = - avg(r * log(p))

我现在的问题是如何定义奖励r ？ 由于游戏可以具有3种不同的结果：获胜，失败或平局-似乎为获胜奖励1，为平局奖励0，为损失奖励-1（以及那些导致这些结果的行动的折现值）一个自然的选择。

但是，从数学上我有疑问：

赢赏：1-这似乎很有意义。 概率越接近1，则梯度逐渐减小的获胜移动中的概率就应该将其推向1。

开奖奖励：0-这似乎没有道理。 这只会抵消方程中的任何概率，并且不可能进行学习（因为梯度应始终为0）。

损失奖励：-1-这应该是一种工作。 对于涉及损失的移动，它应将概率推向0。 但是，与获胜案例相比，我担心坡度的不对称性。 概率越接近0，则梯度越陡。 我担心这将对避免损失的政策产生极大的偏见-致使获胜信号无关紧要。

1 个解决方案

您走在正确的轨道上。 但是，我相信您正在将奖励与行动概率相混淆。 在平局的情况下，它得知情节结束时奖励本身为零。 但是，在发生损失的情况下，损失函数是折现奖励（应为-1）乘以行动概率。 因此，它将使您更多地朝着以胜利告终而远离损失，以平局告终的行动落在中间的行动。 直观地讲，它与监督式深度学习非常相似，只是附加了一个加权参数（奖励）。

此外，我相信Google DeepMind的这篇论文对您会有所帮助： https : //arxiv.org/abs/1712.01815 。 他们实际上在谈论使用RL解决国际象棋问题。

强化学习策略梯度有两种不同的奖励更新方法？

[英]Reinforcement Learning Policy Gradient two different update method with reward?

损失政策梯度-强化学习

[英]Loss Policy Gradient - Reinforcement Learning

在强化学习的策略梯度中反向传播什么损失或奖励？

[英]What Loss Or Reward Is Backpropagated In Policy Gradients For Reinforcement Learning?

强化学习中的负面奖励

[英]Negative reward in reinforcement learning

绘制强化学习中的奖励曲线

[英]Plotting reward curve in reinforcement learning

在强化学习中，agent 需要提前知道奖励函数吗？

[英]Does agent need to know reward function in advance in Reinforcement Learning?

python 具有连续动作空间的策略梯度强化学习不起作用

[英]python policy gradient reinforcement learning with continous action space is not working

奖励正在收敛，但强化学习中的动作不正确

[英]Reward is converging but actions are not correct in reinforcement learning

深度强化学习中的有效奖励范围

[英]Efficient reward range in deep reinforcement learning

Keras强化学习：如何将奖励传递给模型

[英]Keras Reinforcement Learning: How to pass reward to the model

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 强化学习策略梯度有两种不同的奖励更新方法？损失政策梯度-强化学习在强化学习的策略梯度中反向传播什么损失或奖励？强化学习中的负面奖励绘制强化学习中的奖励曲线在强化学习中，agent 需要提前知道奖励函数吗？ python 具有连续动作空间的策略梯度强化学习不起作用奖励正在收敛，但强化学习中的动作不正确深度强化学习中的有效奖励范围 Keras强化学习：如何将奖励传递给模型

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM