繁体   English   中英

策略梯度算法是否属于强化学习中的无模型或基于模型的方法?

[英]Does policy gradient algorithm comes under model free or model based methods in Reinforcement learning?

强化学习算法,明确地学习系统模型并使用它们来解决 MDP 问题,是基于模型的方法。 基于模型的强化学习受到控制理论的强烈影响,并且经常从不同学科的角度进行解释。 这些方法包括流行的算法,例如 Dyna [Sutton 1991]、Q 迭代 [Busoniu 等人。 2010],策略梯度 (PG) [Williams 1992] 等。

无模型方法忽略模型,只专注于直接从与环境的交互中找出价值函数。 为了实现这一点,这些方法在很大程度上依赖于采样和观察。 因此他们不需要知道系统的内部工作。 这些方法的一些例子是 Q-learning [Krose 1995]、SARSA [Rummery and Niranjan 1994] 和 Actor-Critic [Konda and Tsitsiklis 1999]。

其他地方写策略梯度是无模型的。 由于演员评论家也是策略梯度算法的一部分,所以有人可以清除它吗?

策略梯度算法是无模型的。

在基于模型的算法中,代理可以访问或学习环境的转换函数 F(state, action) = reward, next_state。 这里的转移函数可以是确定性的,也可以是随机的。

换句话说,在基于模型的算法中,如果采取了特定的行动,代理会预测环境会发生什么(例如在这篇论文中: Atari 的基于模型的强化学习)。 或者,智能体可以根据问题的框架访问转换函数(例如,在 AlphaGo 中,智能体可以访问围棋板的转换函数)。

在策略梯度算法中,代理有一个用于预测采取什么动作的策略网络和一个用于预测当前状态值的价值网络。 这些网络都不能预测环境的转换函数。 因此,它被认为是无模型的。

您可能还会发现OpenAI Spinning Up 的分类图很有帮助。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM