[英]Python returning two identical matrices
我正在嘗試使用 Python 為馬爾可夫決策過程(庫存問題)編寫一個小程序。 我無法弄清楚為什么程序會輸出兩個相同的矩陣(用於利潤和決策矩陣)。 編程本身也有一些問題,因為最后兩列都是零,這是不應該發生的。 對程序本身的任何幫助也將非常有幫助! 這是 output ...
[英]Python returning two identical matrices
我正在嘗試使用 Python 為馬爾可夫決策過程(庫存問題)編寫一個小程序。 我無法弄清楚為什么程序會輸出兩個相同的矩陣(用於利潤和決策矩陣)。 編程本身也有一些問題,因為最后兩列都是零,這是不應該發生的。 對程序本身的任何幫助也將非常有幫助! 這是 output ...
[英]Understanding the argument values for mdptoolbox forest example
我試圖了解如何使用mdptoolbox並有一些問題。 以下語句中的20是什么意思? 我知道這里的10表示可能的狀態數。 20在這里是什么意思? 它代表每個州采取的行動總數嗎? 我想將MDP限制為每個狀態僅2個動作。 我該怎么辦? 上面返回的P的形狀為(2, 10, 1 ...
[英]ModuleNotFoundError: No module named 'mdptoolbox'
導入mdptoolbox模塊時收到錯誤mdptoolbox 。 錯誤日志: ModuleNotFoundError Traceback (最近調用 last) in () ----> 1 import mdptoolbox, mdptoolbox.example Modul ...
[英]OverflowError as I try to use the value-iteration algorithm with mdptoolbox
我為具有4種可能狀態和4種可能動作的電路板設置了一個簡單的MDP。 董事會和獎勵設置如下所示: S4是目標狀態, S2是吸收狀態。 我在編寫的代碼中定義了轉移概率矩陣和獎勵矩陣,以獲得該MDP的最佳值函數。 但是,當我運行代碼時,出現一個錯誤: OverflowError: c ...
[英]Must a transition matrix from a Markov Decision Process be stochastic?
我正在嘗試使用值迭代(通過 pymdptoolbox)和 NumPy 找到此圖中指定的馬爾可夫決策過程問題的最佳策略。 但是 pymdptoolbox 說我的轉換矩陣“不是隨機的”。 是不是因為有 [0, 0, 0, 0] 的數組? 有些轉換是不可能的,比如從狀態 1 到狀態 3。如果不是用零,我 ...