cost 87 ms
Python 返回兩個相同的矩陣

[英]Python returning two identical matrices

我正在嘗試使用 Python 為馬爾可夫決策過程(庫存問題)編寫一個小程序。 我無法弄清楚為什么程序會輸出兩個相同的矩陣(用於利潤和決策矩陣)。 編程本身也有一些問題,因為最后兩列都是零,這是不應該發生的。 對程序本身的任何幫助也將非常有幫助! 這是 output ...

了解mdptoolbox林示例的參數值

[英]Understanding the argument values for mdptoolbox forest example

我試圖了解如何使用mdptoolbox並有一些問題。 以下語句中的20是什么意思? 我知道這里的10表示可能的狀態數。 20在這里是什么意思? 它代表每個州采取的行動總數嗎? 我想將MDP限制為每個狀態僅2個動作。 我該怎么辦? 上面返回的P的形狀為(2, 10, 1 ...

我嘗試在mdptoolbox中使用值迭代算法時發生OverflowError

[英]OverflowError as I try to use the value-iteration algorithm with mdptoolbox

我為具有4種可能狀態和4種可能動作的電路板設置了一個簡單的MDP。 董事會和獎勵設置如下所示: S4是目標狀態, S2是吸收狀態。 我在編寫的代碼中定義了轉移概率矩陣和獎勵矩陣,以獲得該MDP的最佳值函數。 但是,當我運行代碼時,出現一個錯誤: OverflowError: c ...

馬爾可夫決策過程的轉移矩陣必須是隨機的嗎?

[英]Must a transition matrix from a Markov Decision Process be stochastic?

我正在嘗試使用值迭代(通過 pymdptoolbox)和 NumPy 找到此圖中指定的馬爾可夫決策過程問題的最佳策略。 但是 pymdptoolbox 說我的轉換矩陣“不是隨機的”。 是不是因為有 [0, 0, 0, 0] 的數組? 有些轉換是不可能的,比如從狀態 1 到狀態 3。如果不是用零,我 ...


排序:
質量:
 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM