繁体 English 中英

深度强化学习，如何制作控制多台机器的代理

[英]Deep Reinforcement Learning, how to make an agent that control many machines

原文 2022-07-07 12:31:59 4 1 deep-learning/ artificial-intelligence/ reinforcement-learning/ dqn/ multi-agent-reinforcement-learning

早上好，我面临一个“RL”问题，它有很多限制，主要想法是我的代理将控制许多不同的机器，例如命令它们出去执行任务（我们不重视任务)，或命令他们进入仓库并为他们选择应该坐的正确位置（取决于限制）。 问题是：代理将在定义的时间段内做出决定，对于每个时间段，我们都知道允许哪些动作（出去，进来）。 例如，他将在 8 点决定订购 4 台机器出去，并在 14 点决定带回 2 台机器（为它们选择正确的位置）。

在文献中，我展示了许多关于 BDQ 的想法，但它是否需要解决我的问题？ 我正在考虑使用 [chooseMachine1、chooseMachine2、chooseMachine3...chooseMachineN、goOut、goInPlace1、goInPlace2、goInPlace3、goInPlace4] 之类的操作。 在指定逻辑的代码中，根据我们所处的时期，我公开了 M<=N 的机器可供选择（对那些暂时不可能的动作给予 0 概率），如果它是 14 点钟，您知道只有退出的机器与代理决策有关'），如果代理选择 Machine1，那么他将仅访问选择它时可能的操作。

所以，我的问题是，你认为我的想法是对的吗？ （我是初学者），我的想法是制作一个 DQN，为可能/不可能的动作提供逻辑，你认为 BDQ 对我的问题更准确吗？ 就像为具有相同可能操作的 N 台机器设置 N 个分支（brach1（Machine1）：出去，goPlace1，goPlace2 ...）如果是这种情况，是否有任何实现示例？

如果你有资源给我建议，我会很高兴检查它们。

谢谢你

1 个解决方案

如果选择的动作会撞到墙上，那么在迷宫中导航的代理会做什么？

我认为 RL 中的常用方法是允许移动，而不是处理环境的结果。 以这种方式，环境可以简单地什么都不发生，甚至在“不允许”动作时给予负面奖励。

在训练收敛时，代理有望学会不选择无效的动作。

如何将 Drake 与深度强化学习一起使用

[英]How to use Drake with deep reinforcement learning

深度强化学习 - CartPole 问题

[英]Deep Reinforcement Learning - CartPole Problem

深度强化学习训练准确性

[英]Deep Reinforcement Learning Training Accuracy

如何通过深度学习进行分类？

[英]How to make classification with deep learning?

训练深度神经网络的强化学习

[英]Reinforcement learning for training deep neural network

强化学习、深度学习、深度强化学习有什么区别？ [关闭]

[英]What's the difference between reinforcement learning, deep learning, and deep reinforcement learning? [closed]

深度学习，如何代表零到很多项？

[英]Deep learning, how to represent zero to many items?

什么时候需要深层强化学习而不是q学习？

[英]Why and when is deep reinforcement learning needed instead of q-learning?

类似观察的深度强化学习，但需要完全不同的动作，如何解决？

[英]Deep reinforcement learning for similar observations but need totally different actions, how to solve it?

如何并行运行多个实验和 select 在深度强化学习中进行细化的最佳案例？

[英]How to run multiple experiments in parallel and select best cases for refinement in deep reinforcement learning?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何将 Drake 与深度强化学习一起使用深度强化学习 - CartPole 问题深度强化学习训练准确性如何通过深度学习进行分类？训练深度神经网络的强化学习强化学习、深度学习、深度强化学习有什么区别？ [关闭] 深度学习，如何代表零到很多项？什么时候需要深层强化学习而不是q学习？类似观察的深度强化学习，但需要完全不同的动作，如何解决？如何并行运行多个实验和 select 在深度强化学习中进行细化的最佳案例？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM