繁体 English 中英

如何将 UNO 建模为 POMDP

[英]How to model UNO as a POMDP

原文 2019-04-24 23:47:19 6 1 artificial-intelligence/ reinforcement-learning/ markov-decision-process

我正在尝试将 UNO 纸牌游戏建模为 Partially Observable Markov Decision Processes(POMDPs) 。 我做了一点研究，得出的结论是，状态将是卡片的数量，动作将是播放或从看不见的卡片组中挑选卡片。 我在制定状态转换和观察模型时遇到了困难。 我认为，观察模型将取决于过去的行为和观察（历史），但为此我需要放宽马尔可夫假设。 我想知道放宽马尔可夫假设是不是更好的选择？ 另外，我应该如何形成状态和观察模型。提前致谢。

1 个解决方案

我认为在 POMDP 中，状态应该仍然是“全部真相”（所有卡片的位置），而转换只是游戏规则（包括其他玩家的策略？！）。 观察当然不应该依赖于任何历史，只依赖于状态，否则你就违反了马尔可夫假设。 POMDP 的要点是代理可以通过分析历史来获取有关当前状态的信息。 不过，我不确定这是否或如何适用于 UNO。 如果你知道打出了哪些牌以及它们的顺序，你还能通过历史获取信息吗？ 可能不是。 不确定，但也许将此游戏视为 POMDP 是没有意义的，即使您使用专为 POMDP 设计的解决方案。