繁体   English   中英

在强化学习中实现损失函数(MSVE)

[英]Implementing a loss function (MSVE) in Reinforcement learning

我正在努力为奥赛罗建立一个时间差异学习代理。 虽然我的其他实现似乎按预期运行,但我想知道用于训练我的网络的损失函数。 在Sutton的书“强化学习:简介”中,均值平方值误差(MSVE表示为标准损失函数。它基本上是均方误差乘以on政策分布。(所有状态的总和)(onPolicyDistribution(s) )* [V(s) - V'(s,w)]²))

我现在的问题是:当我的政策是学习价值函数的e-greedy函数时,如何在政策分配中获得此信息? 它是否甚至是必要的,如果我只使用MSELoss会出现什么问题?

我在pytorch中实现所有这些,所以在那里轻松实现奖励积分:)

正如您所提到的,在您的情况下,听起来您正在进行Q-learning,因此您不需要像Sutton的书中所描述的那样执行策略渐变。 当你学习政策时,这是必要的。 你没有学习政策,你正在学习价值功能并使用它来行动。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM