繁体   English   中英

深度强化学习,如何制作控制多台机器的代理

[英]Deep Reinforcement Learning, how to make an agent that control many machines

早上好,我面临一个“RL”问题,它有很多限制,主要想法是我的代理将控制许多不同的机器,例如命令它们出去执行任务(我们不重视任务),或命令他们进入仓库并为他们选择应该坐的正确位置(取决于限制)。 问题是:代理将在定义的时间段内做出决定,对于每个时间段,我们都知道允许哪些动作(出去,进来)。 例如,他将在 8 点决定订购 4 台机器出去,并在 14 点决定带回 2 台机器(为它们选择正确的位置)。

在文献中,我展示了许多关于 BDQ 的想法,但它是否需要解决我的问题? 我正在考虑使用 [chooseMachine1、chooseMachine2、chooseMachine3...chooseMachineN、goOut、goInPlace1、goInPlace2、goInPlace3、goInPlace4] 之类的操作。 在指定逻辑的代码中,根据我们所处的时期,我公开了 M<=N 的机器可供选择(对那些暂时不可能的动作给予 0 概率),如果它是 14 点钟,您知道只有退出的机器与代理决策有关'),如果代理选择 Machine1,那么他将仅访问选择它时可能的操作。

所以,我的问题是,你认为我的想法是对的吗? (我是初学者),我的想法是制作一个 DQN,为可能/不可能的动作提供逻辑,你认为 BDQ 对我的问题更准确吗? 就像为具有相同可能操作的 N 台机器设置 N 个分支(brach1(Machine1):出去,goPlace1,goPlace2 ...)如果是这种情况,是否有任何实现示例?

如果你有资源给我建议,我会很高兴检查它们。

谢谢你

如果选择的动作会撞到墙上,那么在迷宫中导航的代理会做什么?

我认为 RL 中的常用方法是允许移动,而不是处理环境的结果。 以这种方式,环境可以简单地什么都不发生,甚至在“不允许”动作时给予负面奖励。

在训练收敛时,代理有望学会不选择无效的动作。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM