繁体 English 中英

马尔可夫决策过程中的建模动作使用限制

[英]Modelling action use limit in Markov Decision Process

原文 2021-03-22 05:19:25 5 1 reinforcement-learning/ markov-chains/ state-diagram/ markov-decision-process

我有一个包含一定数量的状态和动作的马尔可夫决策过程。 我想在我的 model 中加入一个只能在任何状态下使用一次的动作，并且使用后不能再次使用。 我如何在我的 state 图中执行 model 这个动作？ 我想有一个单独的 state 并使用 -inf 作为奖励，但这些似乎都没有用。 谢谢！

1 个解决方案

为了满足 Markov 属性，您必须在每个 state 中包含之前是否使用过此操作的信息，没有其他方法可以解决。 这将使您的 state 空间更大，但随后您的 state 图将按您预期的那样运行。

假设您有三个状态：S = {1,2,3} 和两个动作 A={1,2}，其中每个动作只能在每个 state 中使用一次。那么您现在将拥有状态 S = {( 1,p1,p2), (2,p1,p2), (3,p1,p2)}，其中 p1 是一个 boolean 动作 1 之前是否已经在这个 state 中使用过，p2 是一个 boolean 表示动作 2 是否已经以前在这个 state 中使用过。这意味着你现在总共有 12 个状态：S={(1,0,0), (1,1,0), (1,0,1), (1,1 ,1), (2,0,0), (2,1,0), (2,0,1), (2,1,1), (3,0,0), (3,1,0 ), (3,0,1), (3,1,1)}

值迭代不收敛-马尔可夫决策过程

[英]Value iteration not converging - Markov decision process

具有值迭代的马尔可夫决策过程动态规划

[英]Dynamic Programming of Markov Decision Process with Value Iteration

有人可以用一个例子解释部分可观察的马尔可夫决策过程（POMDP）吗？

[英]Can someone explain partially observable Markov decision process (POMDP) with an example?

部分可观察的马尔可夫决策过程最优值函数

[英]Partially Observable Markov Decision Process Optimal Value function

Java中的马尔可夫模型决策过程

[英]Markov Model descision process in Java

强化学习中行动限制的限制

[英]Limit on Action Change in reinforcement learning

为什么环境状态为markov？

[英]Why is the environment state markov?

进一步了解马尔可夫性质

[英]Understanding Markov Property further

OpenAI Gym action_space如何限制选择

[英]OpenAI gym action_space how to limit choices

马尔可夫强化学习的拟合值迭代算法

[英]Fitted value iteration algorithm of Markov Reinforcement Learning

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 值迭代不收敛-马尔可夫决策过程具有值迭代的马尔可夫决策过程动态规划有人可以用一个例子解释部分可观察的马尔可夫决策过程（POMDP）吗？部分可观察的马尔可夫决策过程最优值函数 Java中的马尔可夫模型决策过程强化学习中行动限制的限制为什么环境状态为markov？进一步了解马尔可夫性质 OpenAI Gym action_space如何限制选择马尔可夫强化学习的拟合值迭代算法

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM