所以我有一个玩纸牌游戏 Schnapsen 的 DQN 代理。 我不会让您厌烦游戏的细节,因为它们与我要问的问题没有太大关系。 唯一重要的一点是,对于每一轮游戏,玩家都可以采取特定的有效动作。 我创建的 DQN Agent 有时会输出无效的着法,形式为 integer。整个游戏中有 28 种可能的着 ...
所以我有一个玩纸牌游戏 Schnapsen 的 DQN 代理。 我不会让您厌烦游戏的细节,因为它们与我要问的问题没有太大关系。 唯一重要的一点是,对于每一轮游戏,玩家都可以采取特定的有效动作。 我创建的 DQN Agent 有时会输出无效的着法,形式为 integer。整个游戏中有 28 种可能的着 ...
在这个项目中,我们被要求实施价值迭代和 Q 学习,并首先在 Gridworld(来自课堂)上测试我们的代理,然后将它们应用于模拟机器人 controller(爬虫)和 Pacman。 说明是下载 zip 文件夹并编辑我已完成的 valueIterationAgents.py 和 qlearningA ...
我正在尝试在 openai-gym 的“月球着陆器”环境中实施 DQN。 在训练 3000 集后,它没有显示收敛的迹象。 (作为对比,一个非常简单的策略梯度方法在2000集之后收敛) 我多次检查我的代码,但找不到哪里出了问题。 我希望这里是否有人可以指出问题出在哪里。 下面是我的代码: 我使用一个 ...
我被要求增强此代码以展示奖励和惩罚的比较。 它是如何工作的,我必须通过让这段代码显示训练代理之前和训练代理之后获得的奖励的比较来增强它。 绘制的图表必须重叠以显示比较,但我找不到方法。 我已经尝试了好几天,但找不到我正在寻找的解决方案。 我希望有人可以帮助我。 如果需要创建新代码或单独的代码然后比 ...
我正在尝试使用卷积层和密集层创建 Flappy Bird AI,但在“训练”步骤(函数拟合())我收到以下错误消息: 我在互联网上找到了一个仅使用密集层的示例(版权所有 (c) 2020 Gabriel Nogueira (Talendar))。 我想用 Conv2D 和 Dense Layer ...
这是我在 StackOverflow 上的第一篇文章,所以我希望格式没问题。 我想将函数作为参数传递给另一个函数。 为此,我声明了一个结构来描述函数。 但是,我在编译时得到一个无效的分析器错误。 在functions.h中,我有这个位: 然后在functions.c中: 我的最终目标是使 ...
is_slippery 参数如何影响 Frozenlake 环境中的奖励? Frozenlake 环境有一个名为 is_slippery 的参数,如果设置为 True,它将以 1/3 的概率沿预期方向移动,否则将以 1/3 的相等概率在两个方向上沿任一垂直方向移动。 这个 is_slipper ...
当我的状态是列表而动作是元组时,如何创建 Q 表? N = 3 的状态示例 这些状态的动作示例 我想知道 但我不认为,那是一个好的设计。 ...
在 Actor-Critic 方法中,Actor 和 Critic 被分配了两个互补但不同的目标。 我试图了解这些目标(更新策略和更新价值函数)之间的差异是否足够大以保证演员和评论家的不同模型,或者它们是否具有足够相似的复杂性以至于应该重用相同的 model为简单起见。 我意识到这可能是非常有情境 ...
我的问题是我在 c++ 中使用 epsilon 贪心策略编写了 Q 学习算法,现在我必须 plot 的 Q 值的学习曲线。 我应该对 plot 究竟有什么,因为我有一个 11x5 Q 矩阵,所以我应该取一个 Q 值和 plot 它的学习还是我必须取整个矩阵作为学习曲线,你能指导我吗? 谢谢 ...
我想用 MDP(马尔可夫决策过程)来解决赌徒的问题。 赌徒的问题:赌徒有机会对一系列掷硬币的结果下注。 如果硬币正面朝上,他赢的钱与他在该掷硬币上的赌注一样多; 如果是反面,他将失去赌注。 游戏结束时,赌徒达到他的目标 κ 美元获胜,或者因为钱用完而失败。 在每次翻转时,赌徒必须决定下注多少(整数 ...
这个问题是从 Stack Overflow 迁移过来的,因为它可以在 Cross Validated 上得到回答。 6 天前迁移。 ...
我正在尝试使用多处理在 jupyter notebook 中执行以下代码,但循环无限运行。 我需要帮助解决这个问题。 mp.cpu_count()的 output 是 4。 ...
我不知道强化学习是否可行,但我的问题是在图中为不同的人找到步行路径。 我绘制的帮助问题描述的示例图像在这里: 问题是:有一个带有图形表示的花园。 黑线是花园里的步行道,红线是顶点,所以是道路的交汇点。 蓝人是人,他们可以走在路上,他们只能在顶点(红点)上改变他们的路。 人数不限,花园可同时容纳1 ...
我正在尝试运行以下 github 代码进行股市预测: https://github.com/multidqn/deep-q-trading 使用他们的说明,我在安装所需的库后运行以下命令: 但是,当我运行上述命令时,出现以下错误: 你能帮我解决问题并成功运行代码吗? 我一直在寻找错误, ...
我正在使用pytorch实现简单的DQN算法,以解决来自gym的 CartPole 环境。 我已经调试了一段时间,我无法弄清楚为什么 model 不学习。 观察: 使用SmoothL1Loss性能比MSEloss差,但两者的损失都会增加 Adam中较小的LR不起作用,我使用 0.0001、0.000 ...
我尝试实现最简单的深度 Q 学习算法。 我认为,我已经正确地实施了它,并且知道深度 Q 学习与分歧作斗争,但回报下降得非常快,损失也在分歧。 如果有人可以帮助我指出正确的超参数,或者我是否错误地实现了算法,我将不胜感激。 我尝试了很多超参数组合,也改变了 QNet 的复杂性。 ...
我正在制作 Q 学习算法来玩 Chrome 恐龙我捕获屏幕并转换为二进制图像并转换为 numpy 数组我使用 model.predict 来查找 q 值但出现错误有什么方法可以解决这个问题吗? ValueError:layersequential_5 的输入 0 与 layer 不兼容::预期 ...
我正在通过 Q Learning 算法制作迷宫求解器。 我有一个随机生成的宽度 X 高度迷宫。 迷宫的每个单元格都是一个 div。 我有不同类型单元格的 CSS 代码。 想简单的告诉Q Learning给不知道的人,基本上我们的agent(或者鼠标,你叫什么)改变它的position非常快,直到解 ...
为什么 position 和 newposition 给出相同的 output 并在下一个循环中一起更新?for game in range(nr_of_games): # Initialize the player at the start position and store the ...