標簽[markov-decision-process] - 堆棧內存溢出

[英]Drawing edges value on Networkx Graph

我正在使用 .networkx 使用以下代碼繪制馬爾可夫決策過程圖當我繪制圖形時，邊緣上的 label（從 1 state 轉移到轉移矩陣的另一個存在的概率值）沒有出現，有人知道如何設置它們嗎？我正在嘗試使用以下無法正常工作的代碼 ...

[英]Shaping theorem for MDPs

我需要幫助來理解 MDP 的整形定理。 Here's the relevant paper: https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf it ...

我應該如何使用 Q-learning 編寫賭徒問題（沒有任何強化學習包）？

[英]How should I code the Gambler's Problem with Q-learning (without any reinforcement learning packages)?

我想用 MDP（馬爾可夫決策過程）來解決賭徒的問題。賭徒的問題：賭徒有機會對一系列擲硬幣的結果下注。如果硬幣正面朝上，他贏的錢與他在該擲硬幣上的賭注一樣多；如果是反面，他將失去賭注。游戲結束時，賭徒達到他的目標 κ 美元獲勝，或者因為錢用完而失敗。在每次翻轉時，賭徒必須決定下注多少（整數 ...

為什么我的馬爾可夫鏈從語料庫中產生相同的句子？

[英]Why does my markov chain produce identical sentences from corpus?

我在 python 中使用markovify 馬爾可夫鏈生成器，當使用那里給出的示例代碼時，它會為我產生很多重復的句子，我不知道為什么。代碼如下：這給了我 output 的： testtekst.txt 采用 ANSI 編碼，具有以下語料庫：羅納爾多在馬德拉出生和長大，他的高級俱樂部生涯開 ...

從均勻分布采樣時沒有方法匹配 logpdf

[英]no method matching logpdf when sampling from uniform distribution

我正在嘗試在 julia 中使用強化學習來教一輛不斷向后加速（但初始速度為正）的汽車應用剎車，以便在向后移動之前盡可能接近目標距離。為此，我正在使用具有許多求解器的POMDPs.jl和crux.jl （我正在使用 DQN）。我將首先列出我認為是腳本的相關部分，然后在最后列出更多內容。為了定義 ...

如何在 GYM 中創建范圍從 0 到 10 的動作空間，連續動作之間的差異為 0.5？

[英]How to create Action space in GYM with range from 0 to 10 with 0.5 difference between the consecutive actions?

我打算在 GYM 中創建范圍從 0 到 10 的動作空間 ...

馬爾可夫決策過程中的建模動作使用限制

[英]Modelling action use limit in Markov Decision Process

我有一個包含一定數量的狀態和動作的馬爾可夫決策過程。我想在我的 model 中加入一個只能在任何狀態下使用一次的動作，並且使用后不能再次使用。我如何在我的 state 圖中執行 model 這個動作？我想有一個單獨的 state 並使用 -inf 作為獎勵，但這些似乎都沒有用。謝謝！ ...

什么是gridworld中的終端狀態？

[英]What is terminal state in gridworld?

我正在學習馬爾可夫決策過程。我不知道在哪里標記終端狀態。在 4x3 網格世界中，我用 T 標記了我認為正確（我可能是錯的）的終端狀態。 Pic 我看到一個指令標記終端狀態如下。有人可以解釋它是如何工作的嗎？ ...

深度 Q 學習的輸入狀態

[英]Input states for Deep Q Learning

我使用 DQN 進行資源分配，其中代理應將到達請求分配給最佳虛擬機。我正在修改 Cartpole 代碼如下：作為 Q 網絡輸入的 Cartpole 狀態由環境給出。問題是在我的代碼中 Q 網絡的輸入是什么？因為代理應該根據到達請求的大小采取最好的行動，但這不是由環境給出的。我應該通 ...

Sutton 的 RL 書中的 Gridworld：如何計算角單元格的值 function？

[英]Gridworld from Sutton's RL book: how to calculate value function for corner cells?

參考 Sutton 和 Barto 的 RL 書，第 2 版，Ch-3，pg-60。這是 5x5 網格世界和每個 state 的值： gridoworld with state values 使用 Bellman Backup 方程，可以計算出每個 state 的值：這是中間 (3,3) 單元 ...

如何在 Python 中為字符串數據構建馬爾可夫決策過程 model？

[英]How to build Markov Decision Processes model in Python for string data?

我有一個包含通過 URI 表示的數據的數據集。我想要 model 可以從我的順序數據中預測數據樣本的前導和后繼的數據。數據集看起來像這樣：例如給定“HTTP://example.com/112”，model 生成“HTTP://example.com/296”作為前導，“HTTP://ex ...

為什么在循環內部或外部初始化變量會改變代碼行為？

[英]Why does initialising the variable inside or outside of the loop change the code behaviour?

作為我學習的一部分，我正在為 gridworld 環境在 python 中實施策略迭代。我寫了以下代碼：此代碼工作正常。但是，當我只是更改要在 for 循環之外聲明的 '''policy_converged''' 變量的位置時，和代碼的rest保持不變。在這種情況下，程序在無限循環中開始 ...

在強化學習中，agent 和 environment 有不同的狀態還是只有一種狀態？

[英]In Reinforcement learning , do both agent and environment have different states or there is only one state?

是環境狀態還是代理狀態？我在某處閱讀環境也有狀態。兩者有何不同？ ...

策略梯度算法是否屬於強化學習中的無模型或基於模型的方法？

[英]Does policy gradient algorithm comes under model free or model based methods in Reinforcement learning?

強化學習算法，明確地學習系統模型並使用它們來解決 MDP 問題，是基於模型的方法。基於模型的強化學習受到控制理論的強烈影響，並且經常從不同學科的角度進行解釋。這些方法包括流行的算法，例如 Dyna [Sutton 1991]、Q 迭代 [Busoniu 等人。 2010]，策略梯度 (PG ...

有人可以用一個例子解釋部分可觀察的馬爾可夫決策過程（POMDP）嗎？

[英]Can someone explain partially observable Markov decision process (POMDP) with an example?

舉個例子，它與 MDP 有何不同？ ...

為什么老虎機問題在強化學習中也稱為一步/狀態 MDP？

[英]Why the bandit problem is also called a one-step/state MDP in Reinforcement learning?

1 步/狀態 MDP（馬爾可夫決策過程）是什么意思？ ...

如何忽略 Python 中文本文件中某行的某些部分？

[英]How to ignore certain parts of a line in text file in Python?

我正在嘗試從下面的 input.txt 文件中提取數字信息。如您所見，有些行包含整數，有些包含整數列表，有些包含元組列表。但是，我特別希望能夠檢查一行的開頭（使用 startswith() 函數），然后忽略我正在檢查的部分。以下是我到目前為止的內容：我只是不太確定如何基本上忽略冒號之前的單 ...

編碼馬爾可夫決策過程的問題

[英]Problems with coding Markov Decision Process

我正在嘗試編寫Markov-Decision Process（MDP），我遇到了一些問題。你可以檢查我的代碼，找出它不起作用的原因我試圖用一些小數據來做它並且它起作用並給我必要的結果，我覺得這是正確的。但我的問題是這個代碼的推廣。是的，我知道MDP庫，但我需要編寫這個代碼。 ...

如何將 UNO 建模為 POMDP

[英]How to model UNO as a POMDP

我正在嘗試將 UNO 紙牌游戲建模為 Partially Observable Markov Decision Processes(POMDPs) 。我做了一點研究，得出的結論是，狀態將是卡片的數量，動作將是播放或從看不見的卡片組中挑選卡片。我在制定狀態轉換和觀察模型時遇到了困難。我認為，觀察 ...

詢問馬爾可夫模擬的結果 - 幫助和反饋高度贊賞

[英]Interrogating the results of the Markov simulation - Help and feedback highly appreciated

我建立了一個馬爾可夫鏈，我可以用它來模擬人們的日常生活（活動模式）。每個模擬日分為144個步驟，該人可以執行十四個活動中的一個。這些是：離開 - 工作（1）離開 - 休閑（2）離開 - 購物（3）睡覺（4）烹飪（5）使用洗碗機（6）洗衣服（7）吸塵（8）看電視（9）使用電腦（10）個人衛 ...