繁体   English   中英

在多智能体环境中降低一个智能体的动作采样频率

[英]Decreasing action sampling frequency for one agent in a multi-agent environment

我第一次使用 rllib,并尝试训练一个自定义的多代理 RL 环境,并希望在其上训练几个 PPO 代理。 我需要弄清楚的实现问题是如何改变对一名特工的训练,以便这个特工每 X 个时间步才采取一次行动。 最好只在每 X 个时间步调用 compute_action() 吗? 或者,在其他步骤中,屏蔽策略选择,以便他们必须重新采样操作,直到调用 No-Op? 或者将输入环境的动作 + 训练批次中的先前动作修改为 No-Ops?

仍然利用 rllib 的训练功能的最简单的实现方法是什么? 我需要为此创建一个自定义训练循环,还是有办法配置 PPOTrainer 来做到这一点?

谢谢

让 t:= 到目前为止的时间步长。 给特殊代理这个特性:t (mod X),并且当 t (mod X).= 0 时不处理它在环境中的动作:这样完成:

  1. 实际上,代理仅在每 X 个时间步执行一次操作,因为您忽略了所有其他操作
  2. 智能体可以了解到,只有每 X 时间步采取的行动才会影响未来的奖励

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM