簡體   English   中英

如何將 UNO 建模為 POMDP

[英]How to model UNO as a POMDP

我正在嘗試將 UNO 紙牌游戲建模為 Partially Observable Markov Decision Processes(POMDPs) 。 我做了一點研究,得出的結論是,狀態將是卡片的數量,動作將是播放或從看不見的卡片組中挑選卡片。 我在制定狀態轉換和觀察模型時遇到了困難。 我認為,觀察模型將取決於過去的行為和觀察(歷史),但為此我需要放寬馬爾可夫假設。 我想知道放寬馬爾可夫假設是不是更好的選擇? 另外,我應該如何形成狀態和觀察模型。提前致謝。

我認為在 POMDP 中,狀態應該仍然是“全部真相”(所有卡片的位置),而轉換只是游戲規則(包括其他玩家的策略?!)。 觀察當然不應該依賴於任何歷史,只依賴於狀態,否則你就違反了馬爾可夫假設。 POMDP 的要點是代理可以通過分析歷史來獲取有關當前狀態的信息。 不過,我不確定這是否或如何適用於 UNO。 如果你知道打出了哪些牌以及它們的順序,你還能通過歷史獲取信息嗎? 可能不是。 不確定,但也許將此游戲視為 POMDP 是沒有意義的,即使您使用專為 POMDP 設計的解決方案。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM