繁体 English 中英

具有可变动作的强化学习

[英]Reinforcement Learning With Variable Actions

原文 2011-03-07 04:34:08 9 3 machine-learning/ reinforcement-learning/ planning

我读过的所有强化学习算法通常都应用于具有固定数量动作的单个代理。 是否有任何强化学习算法可以在考虑可变数量的动作的同时做出决定？ 例如，您将如何将 RL 算法应用到一个玩家控制 N 个士兵的计算机游戏中，并且每个士兵根据自己的情况有随机数量的动作？ 您无法为全局决策者（即“将军”）制定固定数量的行动，因为随着士兵的创建和死亡，可用的行动不断变化。 而且您无法在士兵级别制定固定数量的行动，因为士兵的行动是基于其直接环境的条件。 如果一个士兵没有看到对手，那么它可能只能走路，而如果看到 10 个对手，那么它有 10 个新的可能动作，攻击 10 个对手中的一个。

3 个解决方案

你描述的情况没有什么异常。 强化学习是一种寻找马尔可夫决策过程的价值函数的方法。 在 MDP 中，每个状态都有自己的一组动作。 要继续应用强化学习，您必须清楚地定义问题中的状态、动作和奖励。

如果您根据某些条件为每个士兵提供多个可用或不可用的动作，那么您仍然可以将其建模为从一组固定动作中进行选择。 例如：

为每个士兵的每一个全套动作创建一个“效用值”
选择价值最高的动作，忽略那些在给定时间不可用的动作

如果您有多个可能的目标，那么同样的原则适用，除了这次您对效用函数建模以将目标指定作为附加参数，并多次运行评估函数（每个目标一个）。 您选择具有最高“攻击效用”的目标。

在连续域动作空间中，策略神经网络通常输出均值和/或方差，然后您从中对动作进行采样，假设它遵循某个分布。

用于连续状态，离散动作的强化学习算法

[英]Reinforcement learning algorithms for continuous states, discrete actions

在强化学习中导致相同状态的多个动作

[英]Multiple actions that lead to the same state in Reinforcement Learning

[英]Reinforcement Learning

什么是强化机器学习？

[英]What is Reinforcement machine learning?

强化学习中的负面奖励

[英]Negative reward in reinforcement learning

用神经网络进行强化学习

[英]Reinforcement learning with neural networks

电源管理的强化学习

[英]Reinforcement learning for power management

监督数据集上的强化学习

[英]Reinforcement Learning on a Supervised Dataset

SARSA在强化学习中

[英]SARSA in Reinforcement Learning

分层强化学习的实现

[英]Implementations of Hierarchical Reinforcement Learning

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 用于连续状态，离散动作的强化学习算法在强化学习中导致相同状态的多个动作强化学习什么是强化机器学习？强化学习中的负面奖励用神经网络进行强化学习电源管理的强化学习监督数据集上的强化学习 SARSA在强化学习中分层强化学习的实现

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM