繁体   English   中英

如何将 UNO 建模为 POMDP

[英]How to model UNO as a POMDP

我正在尝试将 UNO 纸牌游戏建模为 Partially Observable Markov Decision Processes(POMDPs) 。 我做了一点研究,得出的结论是,状态将是卡片的数量,动作将是播放或从看不见的卡片组中挑选卡片。 我在制定状态转换和观察模型时遇到了困难。 我认为,观察模型将取决于过去的行为和观察(历史),但为此我需要放宽马尔可夫假设。 我想知道放宽马尔可夫假设是不是更好的选择? 另外,我应该如何形成状态和观察模型。提前致谢。

我认为在 POMDP 中,状态应该仍然是“全部真相”(所有卡片的位置),而转换只是游戏规则(包括其他玩家的策略?!)。 观察当然不应该依赖于任何历史,只依赖于状态,否则你就违反了马尔可夫假设。 POMDP 的要点是代理可以通过分析历史来获取有关当前状态的信息。 不过,我不确定这是否或如何适用于 UNO。 如果你知道打出了哪些牌以及它们的顺序,你还能通过历史获取信息吗? 可能不是。 不确定,但也许将此游戏视为 POMDP 是没有意义的,即使您使用专为 POMDP 设计的解决方案。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM