繁体 English 中英

增强学习以获取连续的状态和动作空间

[英]Reinforcement learning for continuous state and action space

原文 2019-01-05 11:24:35 7 2 python/ machine-learning/ artificial-intelligence/ reinforcement-learning

问题

我的目标是应用强化学习来预测物体在3D环境下处于已知力下的下一个状态（该方法将简化为监督学习，离线学习）。

我的方法的细节

当前状态是代表物体在环境中的位置（3维）和物体的速度（3维）的向量。 起始位置以及起始速度在环境中被随机初始化。

动作是代表从状态t到状态t + 1的运动的向量。

奖励只是预测的下一个状态与实际的下一个状态（我已经有了目标位置）之间的欧几里得距离。

到目前为止，我做了什么？

我一直在寻找许多方法来做到这一点。 深度确定性策略梯度适用于连续的操作空间，但就我而言，我也具有连续的状态空间。 如果您对此方法感兴趣，请参考DeepMind上的原始文章： http ： //proceedings.mlr.press/v32/silver14.pdf

Actor-Critic方法应该可行，但通常（或始终）应用于离散和低维状态空间。

Q-Learning和Deep-Q Learning无法处理高维状态空间，因此即使离散化状态空间，我的配置也无法使用。

反向强化学习 （模仿学习的一个实例，具有行为克隆和直接策略学习 ）在发现奖励功能比找到策略功能更为复杂时，可以近似奖励功能。 有趣的方法，但是我还没有看到任何实现，对于我来说，奖励功能非常简单。 有没有可以解决我的配置问题的方法？

2 个解决方案

在您的问题中，我相信可能会有很多困惑和误解。

首先，深度确定性策略梯度（DDPG）绝对可以处理连续的状态和动作。 它之所以如此著名仅是因为它。 而且，它是有史以来第一个稳定的架构。 另外，您链接的纸张实际上是DPG，而不是DDPG。 但是，DDPG和DPG都可以处理连续的状态和动作，但是后者更加不稳定。 该论文实际上是由我在UofA的“高级”发表的。 这是DDPG的链接： https ://arxiv.org/pdf/1509.02971.pdf。
批评演员的RL不是算法，而是一个RL算法系列，其中演员将状态映射到动作，而评论家对反馈信号进行“预处理”，以便演员可以更有效地学习它。 DDPG是演员评判机构的一个例子。 在DDPG中，DQN用作批注者，以对确定性策略梯度（参与者）的反馈信号进行预处理。
Q学习和深度Q学习也是RL算法家族。 鉴于计算能力不足，Q学习当然不能处理高状态空间，但是，深度Q学习当然可以。 深度Q网络就是一个例子。

回到原来的问题。

我几乎可以保证您可以使用DDPG解决您的问题。 实际上，DDPG仍然是可用于在连续状态，连续动作空间中控制代理的仅有算法之一。

可以这样做的另一种方法称为信任区域策略优化（TRPO）。 它是由UC Bekelery团队（以及OpenAI？）开发的。 TRPO和DDPG的基本结构是相同的（都是演员评判的），但是培训是不同的。 DDPG使用目标网络方法来确保收敛和稳定性，而TRPO在网络更新上施加Kullerback-Leibler散度约束，以确保网络的每次更新都不会太大（即，在t时刻网络的最佳策略不会有太大差异）从t-1开始）。 TRPO非常难以编码，因此，OpenAI发表了另一篇名为《近端策略梯度》（PPO）的论文。 此方法类似于TRPO，但更易于实现。

长话短说，我建议您尝试DDPG，因为如果您的任务很简单，那么DDPG肯定可以工作。

看起来这可能是一篇不错的论文。 如果动作空间不离散化，那么很难从巨大的连续状态空间中指定或选择一个动作。 当行动空间离散时，可能导致大量信息丢失。 提出的算法从策略网络在离散空间中初始化的动作开始。 然后，它使用连续空间中的上限可信度（UCB）探索和评估价值网络的行为。

还有其他几篇论文可能值得一看，但是以上论文是最新的。 希望这会有所帮助。

python 具有连续动作空间的策略梯度强化学习不起作用

[英]python policy gradient reinforcement learning with continous action space is not working

强化学习中如何处理不同的状态空间大小？

[英]How to deal with different state space size in reinforcement learning?

在为强化学习设计网格世界时如何表示状态空间

[英]How to represent state space when designing a grid world for reinforcement learning

强化学习方法，将连续映射到连续映射

[英]Reinforcement learning methodes that map continuous to continuous

没有最终状态的强化学习？

[英]Reinforcement Learning without a final state?

Python 强化学习 - 元组观察空间

[英]Python Reinforcement Learning - Tuple Observation Space

DQN（强化学习）：状态应该标准化吗？

[英]DQN(Reinforcement learning) : should state be standardized?

Pytorch 示例来自 Deep Reinforcement learning in action 运行速度太慢

[英]Pytorch example from Deep Reinforcement learning in action running too slow

强化学习，钟摆蟒蛇

[英]Reinforcement learning, pendulum python

强化学习中的负面奖励

[英]Negative reward in reinforcement learning

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 python 具有连续动作空间的策略梯度强化学习不起作用强化学习中如何处理不同的状态空间大小？在为强化学习设计网格世界时如何表示状态空间强化学习方法，将连续映射到连续映射没有最终状态的强化学习？ Python 强化学习 - 元组观察空间 DQN（强化学习）：状态应该标准化吗？ Pytorch 示例来自 Deep Reinforcement learning in action 运行速度太慢强化学习，钟摆蟒蛇强化学习中的负面奖励

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM