繁体 English 中英

强化学习，钟摆蟒蛇

[英]Reinforcement learning, pendulum python

原文 2017-02-14 11:05:45 8 1 python/ reinforcement-learning

我在为摆问题找到好的奖励函数时遇到麻烦，我正在使用的函数是：-x ** 2 +-0.25 *（xdot ** 2），这是从顶部算起的二次误差。 x代表摆的当前位置，xdot代表角速度。

此功能需要花费很多时间，有时无法正常工作。 有人有其他建议吗？ 我一直在看谷歌，但找不到我可以使用的任何东西

在本文中，作者在具有以下奖励功能的倒立摆的模拟版本和真实版本中执行了不同的实验：

在这里， x是代表当前角度和角速度的状态向量，而u是作用。

实验表明，使用以下算法，奖励功能可以很好地发挥作用：SARSA，LSPI，体验重播SARSA和体验重播Q学习。

但是，请考虑到您的问题可能（仅）与奖励函数无关，因为收敛速度可能受到许多因素的影响，正如@Matheus Portela在评论中所建议的那样。

[英]Python - Using pandas with reinforcement learning

[英]Python Reinforcement Learning - Tuple Observation Space

[英]Simulation and visualization libraries for reinforcement learning in python?

[英]Python pendulum

[英]Python: Reinforcement learning Tic-Tac-Toe AI working?

[英]Negative reward in reinforcement learning

[英]Time step in reinforcement learning

[英]Simple interface for reinforcement learning

[英]Reinforcement Learning on a Supervised Dataset

[英]reinforcement learning - number of actions

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Python - 将 pandas 与强化学习一起使用 Python 强化学习 - 元组观察空间用于在python中进行强化学习的仿真和可视化库？ Python摆锤 Python：强化学习井字游戏 AI 工作？强化学习中的负面奖励强化学习中的时间步长简单的界面用于强化学习监督数据集上的强化学习强化学习 - 动作数量

相关标签