繁体 English 中英

策略梯度算法是否属于强化学习中的无模型或基于模型的方法？

[英]Does policy gradient algorithm comes under model free or model based methods in Reinforcement learning?

原文 2020-02-14 07:21:47 6 1 reinforcement-learning/ markov-decision-process/ mdp

强化学习算法，明确地学习系统模型并使用它们来解决 MDP 问题，是基于模型的方法。 基于模型的强化学习受到控制理论的强烈影响，并且经常从不同学科的角度进行解释。 这些方法包括流行的算法，例如 Dyna [Sutton 1991]、Q 迭代 [Busoniu 等人。 2010]，策略梯度 (PG) [Williams 1992] 等。

无模型方法忽略模型，只专注于直接从与环境的交互中找出价值函数。 为了实现这一点，这些方法在很大程度上依赖于采样和观察。 因此他们不需要知道系统的内部工作。 这些方法的一些例子是 Q-learning [Krose 1995]、SARSA [Rummery and Niranjan 1994] 和 Actor-Critic [Konda and Tsitsiklis 1999]。

其他地方写策略梯度是无模型的。 由于演员评论家也是策略梯度算法的一部分，所以有人可以清除它吗？

1 个解决方案

策略梯度算法是无模型的。

在基于模型的算法中，代理可以访问或学习环境的转换函数 F(state, action) = reward, next_state。 这里的转移函数可以是确定性的，也可以是随机的。

换句话说，在基于模型的算法中，如果采取了特定的行动，代理会预测环境会发生什么（例如在这篇论文中： Atari 的基于模型的强化学习）。 或者，智能体可以根据问题的框架访问转换函数（例如，在 AlphaGo 中，智能体可以访问围棋板的转换函数）。

在策略梯度算法中，代理有一个用于预测采取什么动作的策略网络和一个用于预测当前状态值的价值网络。 这些网络都不能预测环境的转换函数。 因此，它被认为是无模型的。

您可能还会发现OpenAI Spinning Up 的分类图很有帮助。

基于模型的大状态和动作空间强化学习算法的推广

[英]Generalizing the Policy for Model-based reinforcement learning algorithm with large state and action spaces

损失政策梯度-强化学习

[英]Loss Policy Gradient - Reinforcement Learning

用Keras模型进行强化学习

[英]Reinforcement Learning with Keras model

强化学习中政策梯度下降的奖励功能

[英]Reward function for Policy Gradient Descent in Reinforcement Learning

调试强化学习 Model (MsPacman)

[英]Debugging Reinforcement Learning Model (MsPacman)

如何实现强化学习模型？

[英]How to implement a reinforcement learning model?

在监督学习模型上应用“强化学习”

[英]Applying “reinforcement learning” on a supervised learning model

python 具有连续动作空间的策略梯度强化学习不起作用

[英]python policy gradient reinforcement learning with continous action space is not working

模型与政策强化学习有什么区别

[英]What is the difference between model and policy w.r.t reinforcement learning

Q学习与时间差异与基于模型的强化学习

[英]Q-learning vs temporal-difference vs model-based reinforcement learning

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 基于模型的大状态和动作空间强化学习算法的推广损失政策梯度-强化学习用Keras模型进行强化学习强化学习中政策梯度下降的奖励功能调试强化学习 Model (MsPacman) 如何实现强化学习模型？在监督学习模型上应用“强化学习” python 具有连续动作空间的策略梯度强化学习不起作用模型与政策强化学习有什么区别 Q学习与时间差异与基于模型的强化学习

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM