繁体   English   中英

强化学习,钟摆蟒蛇

[英]Reinforcement learning, pendulum python

我在为摆问题找到好的奖励函数时遇到麻烦,我正在使用的函数是:-x ** 2 +-0.25 *(xdot ** 2),这是从顶部算起的二次误差。 x代表摆的当前位置,xdot代表角速度。

此功能需要花费很多时间,有时无法正常工作。 有人有其他建议吗? 我一直在看谷歌,但找不到我可以使用的任何东西

本文中 ,作者在具有以下奖励功能的倒立摆的模拟版本和真实版本中执行了不同的实验: 在此处输入图片说明

在这里, x是代表当前角度和角速度的状态向量,而u是作用。

实验表明,使用以下算法,奖励功能可以很好地发挥作用:SARSA,LSPI,体验重播SARSA和体验重播Q学习。

但是,请考虑到您的问题可能(仅)与奖励函数无关,因为收敛速度可能受到许多因素的影响,正如@Matheus Portela在评论中所建议的那样。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM