cost 92 ms
在 Networkx Graph 上繪制邊值

[英]Drawing edges value on Networkx Graph

我正在使用 .networkx 使用以下代碼繪制馬爾可夫決策過程圖 當我繪制圖形時,邊緣上的 label(從 1 state 轉移到轉移矩陣的另一個存在的概率值)沒有出現,有人知道如何設置它們嗎? 我正在嘗試使用以下無法正常工作的代碼 ...

我應該如何使用 Q-learning 編寫賭徒問題(沒有任何強化學習包)?

[英]How should I code the Gambler's Problem with Q-learning (without any reinforcement learning packages)?

我想用 MDP(馬爾可夫決策過程)來解決賭徒的問題。 賭徒的問題:賭徒有機會對一系列擲硬幣的結果下注。 如果硬幣正面朝上,他贏的錢與他在該擲硬幣上的賭注一樣多; 如果是反面,他將失去賭注。 游戲結束時,賭徒達到他的目標 κ 美元獲勝,或者因為錢用完而失敗。 在每次翻轉時,賭徒必須決定下注多少(整數 ...

為什么我的馬爾可夫鏈從語料庫中產生相同的句子?

[英]Why does my markov chain produce identical sentences from corpus?

我在 python 中使用markovify 馬爾可夫鏈生成器,當使用那里給出的示例代碼時,它會為我產生很多重復的句子,我不知道為什么。 代碼如下: 這給了我 output 的: testtekst.txt 采用 ANSI 編碼,具有以下語料庫: 羅納爾多在馬德拉出生和長大,他的高級俱樂部生涯開 ...

從均勻分布采樣時沒有方法匹配 logpdf

[英]no method matching logpdf when sampling from uniform distribution

我正在嘗試在 julia 中使用強化學習來教一輛不斷向后加速(但初始速度為正)的汽車應用剎車,以便在向后移動之前盡可能接近目標距離。 為此,我正在使用具有許多求解器的POMDPs.jl和crux.jl (我正在使用 DQN)。 我將首先列出我認為是腳本的相關部分,然后在最后列出更多內容。 為了定義 ...

馬爾可夫決策過程中的建模動作使用限制

[英]Modelling action use limit in Markov Decision Process

我有一個包含一定數量的狀態和動作的馬爾可夫決策過程。 我想在我的 model 中加入一個只能在任何狀態下使用一次的動作,並且使用后不能再次使用。 我如何在我的 state 圖中執行 model 這個動作? 我想有一個單獨的 state 並使用 -inf 作為獎勵,但這些似乎都沒有用。 謝謝! ...

什么是gridworld中的終端狀態?

[英]What is terminal state in gridworld?

我正在學習馬爾可夫決策過程。 我不知道在哪里標記終端狀態。 在 4x3 網格世界中,我用 T 標記了我認為正確(我可能是錯的)的終端狀態。 Pic 我看到一個指令標記終端狀態如下。 有人可以解釋它是如何工作的嗎? ...

深度 Q 學習的輸入狀態

[英]Input states for Deep Q Learning

我使用 DQN 進行資源分配,其中代理應將到達請求分配給最佳虛擬機。 我正在修改 Cartpole 代碼如下: 作為 Q 網絡輸入的 Cartpole 狀態由環境給出。 問題是在我的代碼中 Q 網絡的輸入是什么? 因為代理應該根據到達請求的大小采取最好的行動,但這不是由環境給出的。 我應該通 ...

如何在 Python 中為字符串數據構建馬爾可夫決策過程 model?

[英]How to build Markov Decision Processes model in Python for string data?

我有一個包含通過 URI 表示的數據的數據集。 我想要 model 可以從我的順序數據中預測數據樣本的前導和后繼的數據。 數據集看起來像這樣: 例如給定“HTTP://example.com/112”,model 生成“HTTP://example.com/296”作為前導,“HTTP://ex ...

為什么在循環內部或外部初始化變量會改變代碼行為?

[英]Why does initialising the variable inside or outside of the loop change the code behaviour?

作為我學習的一部分,我正在為 gridworld 環境在 python 中實施策略迭代。 我寫了以下代碼: 此代碼工作正常。 但是,當我只是更改要在 for 循環之外聲明的 '''policy_converged''' 變量的位置時, 和代碼的rest保持不變。 在這種情況下,程序在無限循環中開始 ...

策略梯度算法是否屬於強化學習中的無模型或基於模型的方法?

[英]Does policy gradient algorithm comes under model free or model based methods in Reinforcement learning?

強化學習算法,明確地學習系統模型並使用它們來解決 MDP 問題,是基於模型的方法。 基於模型的強化學習受到控制理論的強烈影響,並且經常從不同學科的角度進行解釋。 這些方法包括流行的算法,例如 Dyna [Sutton 1991]、Q 迭代 [Busoniu 等人。 2010],策略梯度 (PG ...

如何忽略 Python 中文本文件中某行的某些部分?

[英]How to ignore certain parts of a line in text file in Python?

我正在嘗試從下面的 input.txt 文件中提取數字信息。 如您所見,有些行包含整數,有些包含整數列表,有些包含元組列表。 但是,我特別希望能夠檢查一行的開頭(使用 startswith() 函數),然后忽略我正在檢查的部分。 以下是我到目前為止的內容: 我只是不太確定如何基本上忽略冒號之前的單 ...

編碼馬爾可夫決策過程的問題

[英]Problems with coding Markov Decision Process

我正在嘗試編寫Markov-Decision Process(MDP),我遇到了一些問題。 你可以檢查我的代碼,找出它不起作用的原因 我試圖用一些小數據來做它並且它起作用並給我必要的結果,我覺得這是正確的。 但我的問題是這個代碼的推廣。 是的,我知道MDP庫,但我需要編寫這個代碼。 ...

如何將 UNO 建模為 POMDP

[英]How to model UNO as a POMDP

我正在嘗試將 UNO 紙牌游戲建模為 Partially Observable Markov Decision Processes(POMDPs) 。 我做了一點研究,得出的結論是,狀態將是卡片的數量,動作將是播放或從看不見的卡片組中挑選卡片。 我在制定狀態轉換和觀察模型時遇到了困難。 我認為,觀察 ...

詢問馬爾可夫模擬的結果 - 幫助和反饋高度贊賞

[英]Interrogating the results of the Markov simulation - Help and feedback highly appreciated

我建立了一個馬爾可夫鏈,我可以用它來模擬人們的日常生活(活動模式)。 每個模擬日分為144個步驟,該人可以執行十四個活動中的一個。 這些是:離開 - 工作(1)離開 - 休閑(2)離開 - 購物(3)睡覺(4)烹飪(5)使用洗碗機(6)洗衣服(7)吸塵(8)看電視(9)使用電腦(10)個人衛 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM