繁体 English 中英

Agent不断重复同一个动作圈，Q学习

[英]Agent repeats the same action circle non stop, Q learning

原文 2020-04-22 14:02:22 9 1 python/ tensorflow/ reinforcement-learning/ q-learning

如何防止代理不停重复同一个动作圈？

当然，不知何故随着奖励系统的变化。 但是，您是否可以遵循或尝试在代码中包含一般规则来防止此类问题？

更准确地说，我的实际问题是这个：

我正在尝试教 ANN 使用 Q-Learning 学习 Doodle Jump。 仅仅几代之后，代理不断地在同一个平台/石头上一遍又一遍地跳跃，不停地。 增加随机探索时间的长度没有帮助。

我的奖励系统如下：

代理人活着时+1
+2 当特工在平台上跳跃时
-1000 死亡时

一个想法是当智能体与以前一样到达相同的平台时，给予它负数或至少 0 的奖励。 但要这样做，我必须向 ANN 传递许多新的输入参数：代理的 x,y 坐标和上次访问平台的 x,y 坐标。

此外，ANN 还必须知道一个平台有 4 个块厚，依此类推。

因此，我确信我刚才提到的这个想法并不能解决问题，相反，我相信 ANN 通常根本学不好，因为有太多无用且难以理解的输入。

1 个解决方案

这不是对非常普遍提出的问题的直接答案。

我为我的特定 DoodleJump 示例找到了一种解决方法，可能有人做了类似的事情并需要帮助：

训练时：让代理跳上的每个平台都消失，然后在其他地方生成一个新平台。
测试/演示时：您可以禁用新的“消失功能”（使其再次像以前一样），播放器会玩得很好，并且不会一直跳到同一个平台上。

q 代理正在学习不采取任何行动

[英]q agent is learning not to take any actions

Python pyglet 不断重复播放音频

[英]Python pyglet repeats playing the audio non stop

增强智能体训练 Q Learning Taxi V3

[英]Enhancement of Agent Training Q Learning Taxi V3

Python命令在命令中重复相同的数字（我正在学习python）

[英]Python command repeats same number in command(im learning python)

假设重复相同的值

[英]hypothesis repeats the same values

试图停止匹配生成器中的重复

[英]Trying to stop repeats in matchup generator

Q-learning模型没有改进

[英]Q-learning model not improving

蛇游戏的深度Q学习

[英]Deep Q Learning For Snake Game

深度Q学习修改

[英]Deep Q-learning modification

while循环应停止时重复一次

[英]while loop repeats once when it should stop

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 q 代理正在学习不采取任何行动 Python pyglet 不断重复播放音频增强智能体训练 Q Learning Taxi V3 Python命令在命令中重复相同的数字（我正在学习python）假设重复相同的值试图停止匹配生成器中的重复 Q-learning模型没有改进蛇游戏的深度Q学习深度Q学习修改 while循环应停止时重复一次

相关标签

Agent不断重复同一个动作圈，Q学习

问题描述

1 个解决方案

解决方案1
0 已采纳 2020-04-25 15:27:56

Agent不断重复同一个动作圈，Q学习

问题描述

1 个解决方案

解决方案1 0 已采纳 2020-04-25 15:27:56

解决方案1
0 已采纳 2020-04-25 15:27:56