簡體 English 中英

如何將 UNO 建模為 POMDP

[英]How to model UNO as a POMDP

原文 2019-04-24 23:47:19 3 1 artificial-intelligence/ reinforcement-learning/ markov-decision-process

我正在嘗試將 UNO 紙牌游戲建模為 Partially Observable Markov Decision Processes(POMDPs) 。 我做了一點研究，得出的結論是，狀態將是卡片的數量，動作將是播放或從看不見的卡片組中挑選卡片。 我在制定狀態轉換和觀察模型時遇到了困難。 我認為，觀察模型將取決於過去的行為和觀察（歷史），但為此我需要放寬馬爾可夫假設。 我想知道放寬馬爾可夫假設是不是更好的選擇？ 另外，我應該如何形成狀態和觀察模型。提前致謝。

1 個解決方案

我認為在 POMDP 中，狀態應該仍然是“全部真相”（所有卡片的位置），而轉換只是游戲規則（包括其他玩家的策略？！）。 觀察當然不應該依賴於任何歷史，只依賴於狀態，否則你就違反了馬爾可夫假設。 POMDP 的要點是代理可以通過分析歷史來獲取有關當前狀態的信息。 不過，我不確定這是否或如何適用於 UNO。 如果你知道打出了哪些牌以及它們的順序，你還能通過歷史獲取信息嗎？ 可能不是。 不確定，但也許將此游戲視為 POMDP 是沒有意義的，即使您使用專為 POMDP 設計的解決方案。