標簽[mdptoolbox] - 堆棧內存溢出

[英]Python returning two identical matrices

我正在嘗試使用 Python 為馬爾可夫決策過程（庫存問題）編寫一個小程序。我無法弄清楚為什么程序會輸出兩個相同的矩陣（用於利潤和決策矩陣）。編程本身也有一些問題，因為最后兩列都是零，這是不應該發生的。對程序本身的任何幫助也將非常有幫助！這是 output ...

了解mdptoolbox林示例的參數值

[英]Understanding the argument values for mdptoolbox forest example

我試圖了解如何使用mdptoolbox並有一些問題。以下語句中的20是什么意思？我知道這里的10表示可能的狀態數。 20在這里是什么意思？它代表每個州采取的行動總數嗎？我想將MDP限制為每個狀態僅2個動作。我該怎么辦？上面返回的P的形狀為(2, 10, 1 ...

ModuleNotFoundError: 沒有名為“mdptoolbox”的模塊

[英]ModuleNotFoundError: No module named 'mdptoolbox'

導入mdptoolbox模塊時收到錯誤mdptoolbox 。錯誤日志： ModuleNotFoundError Traceback (最近調用 last) in () ----> 1 import mdptoolbox, mdptoolbox.example Modul ...

我嘗試在mdptoolbox中使用值迭代算法時發生OverflowError

[英]OverflowError as I try to use the value-iteration algorithm with mdptoolbox

我為具有4種可能狀態和4種可能動作的電路板設置了一個簡單的MDP。董事會和獎勵設置如下所示： S4是目標狀態， S2是吸收狀態。我在編寫的代碼中定義了轉移概率矩陣和獎勵矩陣，以獲得該MDP的最佳值函數。但是，當我運行代碼時，出現一個錯誤： OverflowError: c ...

馬爾可夫決策過程的轉移矩陣必須是隨機的嗎？

[英]Must a transition matrix from a Markov Decision Process be stochastic?

我正在嘗試使用值迭代（通過 pymdptoolbox）和 NumPy 找到此圖中指定的馬爾可夫決策過程問題的最佳策略。但是 pymdptoolbox 說我的轉換矩陣“不是隨機的”。是不是因為有 [0, 0, 0, 0] 的數組？有些轉換是不可能的，比如從狀態 1 到狀態 3。如果不是用零，我 ...