繁体 English 中英

在强化学习中实现损失函数（MSVE）

[英]Implementing a loss function (MSVE) in Reinforcement learning

原文 2017-10-11 10:10:53 8 1 reinforcement-learning/ pytorch/ loss-function/ temporal-difference/ othello

我正在努力为奥赛罗建立一个时间差异学习代理。 虽然我的其他实现似乎按预期运行，但我想知道用于训练我的网络的损失函数。 在Sutton的书“强化学习：简介”中，均值平方值误差（MSVE表示为标准损失函数。它基本上是均方误差乘以on政策分布。（所有状态的总和）（onPolicyDistribution（s））* [V（s） - V'（s，w）]²））

我现在的问题是：当我的政策是学习价值函数的e-greedy函数时，如何在政策分配中获得此信息？ 它是否甚至是必要的，如果我只使用MSELoss会出现什么问题？

我在pytorch中实现所有这些，所以在那里轻松实现奖励积分:)

1 个解决方案

正如您所提到的，在您的情况下，听起来您正在进行Q-learning，因此您不需要像Sutton的书中所描述的那样执行策略渐变。 当你学习政策时，这是必要的。 你没有学习政策，你正在学习价值功能并使用它来行动。

损失函数，用于简单的强化学习算法

[英]Loss function for simple Reinforcement Learning algorithm

损失政策梯度-强化学习

[英]Loss Policy Gradient - Reinforcement Learning

强化学习成本函数

[英]Reinforcement learning cost function

在 Keras DQN 中实现 Dropout（强化学习）

[英]Implementing Dropout in a Keras DQN (reinforcement learning)

在NetLogo中实施强化学习（在多智能体模型中学习）

[英]Implementing reinforcement learning in NetLogo (Learning in multi-agent models)

在强化学习的策略梯度中反向传播什么损失或奖励？

[英]What Loss Or Reward Is Backpropagated In Policy Gradients For Reinforcement Learning?

培训强化学习代理时，tflearn损失始终为0.0

[英]tflearn loss is always 0.0 while training reinforcement learning agent

[英]Reinforcement Learning

强化学习中政策梯度下降的奖励功能

[英]Reward function for Policy Gradient Descent in Reinforcement Learning

强化学习中如何计算价值函数

[英]How to calculate the value function in reinforcement learning

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 损失函数，用于简单的强化学习算法损失政策梯度-强化学习强化学习成本函数在 Keras DQN 中实现 Dropout（强化学习）在NetLogo中实施强化学习（在多智能体模型中学习）在强化学习的策略梯度中反向传播什么损失或奖励？培训强化学习代理时，tflearn损失始终为0.0 强化学习强化学习中政策梯度下降的奖励功能强化学习中如何计算价值函数

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM