繁体 English 中英

在多智能体环境中降低一个智能体的动作采样频率

[英]Decreasing action sampling frequency for one agent in a multi-agent environment

原文 2020-07-13 23:13:15 4 1 reinforcement-learning/ ray/ multi-agent/ rllib

我第一次使用 rllib，并尝试训练一个自定义的多代理 RL 环境，并希望在其上训练几个 PPO 代理。 我需要弄清楚的实现问题是如何改变对一名特工的训练，以便这个特工每 X 个时间步才采取一次行动。 最好只在每 X 个时间步调用 compute_action() 吗？ 或者，在其他步骤中，屏蔽策略选择，以便他们必须重新采样操作，直到调用 No-Op？ 或者将输入环境的动作 + 训练批次中的先前动作修改为 No-Ops？

仍然利用 rllib 的训练功能的最简单的实现方法是什么？ 我需要为此创建一个自定义训练循环，还是有办法配置 PPOTrainer 来做到这一点？

谢谢

1 个解决方案

让 t:= 到目前为止的时间步长。 给特殊代理这个特性：t (mod X)，并且当 t (mod X).= 0 时不处理它在环境中的动作：这样完成：

实际上，代理仅在每 X 个时间步执行一次操作，因为您忽略了所有其他操作
智能体可以了解到，只有每 X 时间步采取的行动才会影响未来的奖励

用于多代理游戏的 Openai 健身房环境

[英]Openai gym environment for multi-agent games

多智能体强化学习环境公共交通问题

[英]Multi-agent reinforcement learning environment Public transport problem

多主体健身房环境中的随机主体

[英]Random agent on multi-agent gym environments

在NetLogo中实施强化学习（在多智能体模型中学习）

[英]Implementing reinforcement learning in NetLogo (Learning in multi-agent models)

如何设置 rllib 多代理 PPO？

[英]How to set up rllib multi-agent PPO?

在强化学习中，agent 和 environment 有不同的状态还是只有一种状态？

[英]In Reinforcement learning , do both agent and environment have different states or there is only one state?

如何在openai体育馆环境中修改代理？

[英]How to modify the agent in an openai gym environment?

我可以使用 DQN 和样本在不与环境交互的情况下训练代理吗？

[英]Can I train an agent without interactions with environment using DQN and samples?

如何告诉代理动作空间中的某些动作当前在健身房中不可用？

[英]How to tell an agent that some actions in the action space are currently not available in gym?

自定义环境 Gym，用于使用 DDPG Agent 进行步进功能处理

[英]Custom environment Gym for step function processing with DDPG Agent

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 用于多代理游戏的 Openai 健身房环境多智能体强化学习环境公共交通问题多主体健身房环境中的随机主体在NetLogo中实施强化学习（在多智能体模型中学习）如何设置 rllib 多代理 PPO？在强化学习中，agent 和 environment 有不同的状态还是只有一种状态？如何在openai体育馆环境中修改代理？我可以使用 DQN 和样本在不与环境交互的情况下训练代理吗？如何告诉代理动作空间中的某些动作当前在健身房中不可用？自定义环境 Gym，用于使用 DDPG Agent 进行步进功能处理

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM