繁体   English   中英

具有可变动作的强化学习

[英]Reinforcement Learning With Variable Actions

我读过的所有强化学习算法通常都应用于具有固定数量动作的单个代理。 是否有任何强化学习算法可以在考虑可变数量的动作的同时做出决定? 例如,您将如何将 RL 算法应用到一个玩家控制 N 个士兵的计算机游戏中,并且每个士兵根据自己的情况有随机数量的动作? 您无法为全局决策者(即“将军”)制定固定数量的行动,因为随着士兵的创建和死亡,可用的行动不断变化。 而且您无法在士兵级别制定固定数量的行动,因为士兵的行动是基于其直接环境的条件。 如果一个士兵没有看到对手,那么它可能只能走路,而如果看到 10 个对手,那么它有 10 个新的可能动作,攻击 10 个对手中的一个。

你描述的情况没有什么异常。 强化学习是一种寻找马尔可夫决策过程的价值函数的方法。 在 MDP 中,每个状态都有自己的一组动作。 要继续应用强化学习,您必须清楚地定义问题中的状态、动作和奖励。

如果您根据某些条件为每个士兵提供多个可用或不可用的动作,那么您仍然可以将其建模为从一组固定动作中进行选择。 例如:

  • 为每个士兵的每一个全套动作创建一个“效用值”
  • 选择价值最高的动作,忽略那些在给定时间不可用的动作

如果您有多个可能的目标,那么同样的原则适用,除了这次您对效用函数建模以将目标指定作为附加参数,并多次运行评估函数(每个目标一个)。 您选择具有最高“攻击效用”的目标。

在连续域动作空间中,策略神经网络通常输出均值和/或方差,然后您从中对动作进行采样,假设它遵循某个分布。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM