![](/img/trans.png)
[英]Drawing edges value on Networkx Graph
我正在使用 .networkx 使用以下代碼繪制馬爾可夫決策過程圖 當我繪制圖形時,邊緣上的 label(從 1 state 轉移到轉移矩陣的另一個存在的概率值)沒有出現,有人知道如何設置它們嗎? 我正在嘗試使用以下無法正常工作的代碼 ...
[英]Drawing edges value on Networkx Graph
我正在使用 .networkx 使用以下代碼繪制馬爾可夫決策過程圖 當我繪制圖形時,邊緣上的 label(從 1 state 轉移到轉移矩陣的另一個存在的概率值)沒有出現,有人知道如何設置它們嗎? 我正在嘗試使用以下無法正常工作的代碼 ...
[英]Shaping theorem for MDPs
我需要幫助來理解 MDP 的整形定理。 Here's the relevant paper: https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf it ...
[英]How should I code the Gambler's Problem with Q-learning (without any reinforcement learning packages)?
我想用 MDP(馬爾可夫決策過程)來解決賭徒的問題。 賭徒的問題:賭徒有機會對一系列擲硬幣的結果下注。 如果硬幣正面朝上,他贏的錢與他在該擲硬幣上的賭注一樣多; 如果是反面,他將失去賭注。 游戲結束時,賭徒達到他的目標 κ 美元獲勝,或者因為錢用完而失敗。 在每次翻轉時,賭徒必須決定下注多少(整數 ...
[英]Why does my markov chain produce identical sentences from corpus?
我在 python 中使用markovify 馬爾可夫鏈生成器,當使用那里給出的示例代碼時,它會為我產生很多重復的句子,我不知道為什么。 代碼如下: 這給了我 output 的: testtekst.txt 采用 ANSI 編碼,具有以下語料庫: 羅納爾多在馬德拉出生和長大,他的高級俱樂部生涯開 ...
[英]no method matching logpdf when sampling from uniform distribution
我正在嘗試在 julia 中使用強化學習來教一輛不斷向后加速(但初始速度為正)的汽車應用剎車,以便在向后移動之前盡可能接近目標距離。 為此,我正在使用具有許多求解器的POMDPs.jl和crux.jl (我正在使用 DQN)。 我將首先列出我認為是腳本的相關部分,然后在最后列出更多內容。 為了定義 ...
[英]How to create Action space in GYM with range from 0 to 10 with 0.5 difference between the consecutive actions?
我打算在 GYM 中創建范圍從 0 到 10 的動作空間 ...
[英]Modelling action use limit in Markov Decision Process
我有一個包含一定數量的狀態和動作的馬爾可夫決策過程。 我想在我的 model 中加入一個只能在任何狀態下使用一次的動作,並且使用后不能再次使用。 我如何在我的 state 圖中執行 model 這個動作? 我想有一個單獨的 state 並使用 -inf 作為獎勵,但這些似乎都沒有用。 謝謝! ...
[英]What is terminal state in gridworld?
我正在學習馬爾可夫決策過程。 我不知道在哪里標記終端狀態。 在 4x3 網格世界中,我用 T 標記了我認為正確(我可能是錯的)的終端狀態。 Pic 我看到一個指令標記終端狀態如下。 有人可以解釋它是如何工作的嗎? ...
[英]Input states for Deep Q Learning
我使用 DQN 進行資源分配,其中代理應將到達請求分配給最佳虛擬機。 我正在修改 Cartpole 代碼如下: 作為 Q 網絡輸入的 Cartpole 狀態由環境給出。 問題是在我的代碼中 Q 網絡的輸入是什么? 因為代理應該根據到達請求的大小采取最好的行動,但這不是由環境給出的。 我應該通 ...
[英]Gridworld from Sutton's RL book: how to calculate value function for corner cells?
參考 Sutton 和 Barto 的 RL 書,第 2 版,Ch-3,pg-60。 這是 5x5 網格世界和每個 state 的值: gridoworld with state values 使用 Bellman Backup 方程,可以計算出每個 state 的值: 這是中間 (3,3) 單元 ...
[英]How to build Markov Decision Processes model in Python for string data?
我有一個包含通過 URI 表示的數據的數據集。 我想要 model 可以從我的順序數據中預測數據樣本的前導和后繼的數據。 數據集看起來像這樣: 例如給定“HTTP://example.com/112”,model 生成“HTTP://example.com/296”作為前導,“HTTP://ex ...
[英]Why does initialising the variable inside or outside of the loop change the code behaviour?
作為我學習的一部分,我正在為 gridworld 環境在 python 中實施策略迭代。 我寫了以下代碼: 此代碼工作正常。 但是,當我只是更改要在 for 循環之外聲明的 '''policy_converged''' 變量的位置時, 和代碼的rest保持不變。 在這種情況下,程序在無限循環中開始 ...
[英]In Reinforcement learning , do both agent and environment have different states or there is only one state?
是環境狀態還是代理狀態? 我在某處閱讀環境也有狀態。 兩者有何不同? ...
[英]Does policy gradient algorithm comes under model free or model based methods in Reinforcement learning?
強化學習算法,明確地學習系統模型並使用它們來解決 MDP 問題,是基於模型的方法。 基於模型的強化學習受到控制理論的強烈影響,並且經常從不同學科的角度進行解釋。 這些方法包括流行的算法,例如 Dyna [Sutton 1991]、Q 迭代 [Busoniu 等人。 2010],策略梯度 (PG ...
[英]Can someone explain partially observable Markov decision process (POMDP) with an example?
舉個例子,它與 MDP 有何不同? ...
[英]Why the bandit problem is also called a one-step/state MDP in Reinforcement learning?
1 步/狀態 MDP(馬爾可夫決策過程)是什么意思? ...
[英]How to ignore certain parts of a line in text file in Python?
我正在嘗試從下面的 input.txt 文件中提取數字信息。 如您所見,有些行包含整數,有些包含整數列表,有些包含元組列表。 但是,我特別希望能夠檢查一行的開頭(使用 startswith() 函數),然后忽略我正在檢查的部分。 以下是我到目前為止的內容: 我只是不太確定如何基本上忽略冒號之前的單 ...
[英]Problems with coding Markov Decision Process
我正在嘗試編寫Markov-Decision Process(MDP),我遇到了一些問題。 你可以檢查我的代碼,找出它不起作用的原因 我試圖用一些小數據來做它並且它起作用並給我必要的結果,我覺得這是正確的。 但我的問題是這個代碼的推廣。 是的,我知道MDP庫,但我需要編寫這個代碼。 ...
[英]How to model UNO as a POMDP
我正在嘗試將 UNO 紙牌游戲建模為 Partially Observable Markov Decision Processes(POMDPs) 。 我做了一點研究,得出的結論是,狀態將是卡片的數量,動作將是播放或從看不見的卡片組中挑選卡片。 我在制定狀態轉換和觀察模型時遇到了困難。 我認為,觀察 ...
[英]Interrogating the results of the Markov simulation - Help and feedback highly appreciated
我建立了一個馬爾可夫鏈,我可以用它來模擬人們的日常生活(活動模式)。 每個模擬日分為144個步驟,該人可以執行十四個活動中的一個。 這些是:離開 - 工作(1)離開 - 休閑(2)離開 - 購物(3)睡覺(4)烹飪(5)使用洗碗機(6)洗衣服(7)吸塵(8)看電視(9)使用電腦(10)個人衛 ...