簡體   English   中英

MDP的整形定理

[英]Shaping theorem for MDPs

我需要幫助來理解 MDP 的整形定理。 Here's the relevant paper: https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf it basically says that a markov decision process that has some reward function on transitions between states並且動作 R(s, a, s') 與不同的馬爾可夫決策過程具有相同的最優策略,其獎勵定義為 R'(s, a, s') = R(s, a, s') + gamma* f(s') - f(s),其中 gamma 是時間貼現率。

我理解證明,但它似乎是一個微不足道的情況,當所有狀態和動作的 R(s, a, s') = 0 時,代理面臨路徑 A -> s -> B與 A -> r -> t -> B 相比。使用原始馬爾可夫過程,我們得到兩條路徑的 EV 均為 0,因此兩條路徑都是最優的。 但是隨着我們得到的每個轉換的潛力增加,第一個路徑的 gamma^2*f(B)-f(A) 和第二個路徑的 gamma^3*f(B) - f(A)。 因此,如果 gamma < 1,並且 0 < f(B),f(A),則第二條路徑不再是最優的。

我誤解了這個定理,還是我犯了其他錯誤?

您錯過了這樣一個假設,即對於每個終端,從 state s_T, s_0 開始,我們有 f(s_T) = f(s_0) = 0。(注意,在論文中假設在終端 state 之后總是有新的從 state 開始,潛在的“環繞”。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM