簡體   English   中英

Sutton 的 RL 書中的 Gridworld:如何計算角單元格的值 function?

[英]Gridworld from Sutton's RL book: how to calculate value function for corner cells?

參考 Sutton 和 Barto 的 RL 書,第 2 版,Ch-3,pg-60。

這是 5x5 網格世界和每個 state 的值: gridoworld with state values

使用 Bellman Backup 方程,可以計算出每個 state 的值:

這是中間 (3,3) 單元格的計算:

計算 state 值

使用來自上、下、左和右單元格的值,以及pi = 1/4和所有轉移概率p(s',r|s,a) = 1的隨機策略,計算成立。

但是角細胞呢?

比如,左上角的 3.3。 怎么計算呢?

僅使用較低的 (1.5) 和正確的 (8.8) 值是行不通的。 此外,必須考慮到當代理執行上和左動作時,它仍然在網格上但收到 -1 的獎勵。

你能幫我計算角單元值嗎? 閱讀 github 實現也無濟於事。

左上角的值約為 (0.9*(8.8+1.5) + (-1+0.9*3.3)*2) /4。 等於 3.3025。

1: 0.9*(8.8+1.5) 因為 gamma 0.9, r = 0 如果 agent 沒有離開網格並且沒有從特殊狀態 A 或 B 轉換,並且 v(s') 分別為 8.8 和 1.5 用於向左和向下移動。

2:(-1+0.9*3.3)*2 因為 r = -1 如果代理離開網格(也就是向左或向上移動),0.9 因為那是 gamma,3.3 因為 v(s') = v(s) 因為代理仍然存在在其之前的 state 中,如果它離開網格。 時間 2 因為有 2 種可能性(左/上移動)讓代理離開網格。

3:將第 1 部分和第 2 部分的總和除以 1/4,因為所有操作的 pi(a|s) = 1/4。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM