簡體 English 中英

MDP的整形定理

[英]Shaping theorem for MDPs

原文 2022-01-20 19:11:18 4 1 reinforcement-learning/ markov-decision-process

我需要幫助來理解 MDP 的整形定理。 Here's the relevant paper: https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf it basically says that a markov decision process that has some reward function on transitions between states並且動作 R(s, a, s') 與不同的馬爾可夫決策過程具有相同的最優策略，其獎勵定義為 R'(s, a, s') = R(s, a, s') + gamma* f(s') - f(s)，其中 gamma 是時間貼現率。

我理解證明，但它似乎是一個微不足道的情況，當所有狀態和動作的 R(s, a, s') = 0 時，代理面臨路徑 A -> s -> B與 A -> r -> t -> B 相比。使用原始馬爾可夫過程，我們得到兩條路徑的 EV 均為 0，因此兩條路徑都是最優的。 但是隨着我們得到的每個轉換的潛力增加，第一個路徑的 gamma^2*f(B)-f(A) 和第二個路徑的 gamma^3*f(B) - f(A)。 因此，如果 gamma < 1，並且 0 < f(B)，f(A)，則第二條路徑不再是最優的。

我誤解了這個定理，還是我犯了其他錯誤？

1 個解決方案

您錯過了這樣一個假設，即對於每個終端，從 state s_T, s_0 開始，我們有 f(s_T) = f(s_0) = 0。（注意，在論文中假設在終端 state 之后總是有新的從 state 開始，潛在的“環繞”。

如何在OpenAI體育館中列出每個州可能的繼任州？（僅適用於普通MDP）

[英]How to list possible successor states for each state in OpenAI gym? (strictly for normal MDPs)

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何在OpenAI體育館中列出每個州可能的繼任州？（僅適用於普通MDP）

相關標簽

MDP的整形定理

問題描述

1 個解決方案

解決方案1
0 2022-01-21 20:43:10

MDP的整形定理

問題描述

1 個解決方案

解決方案1 0 2022-01-21 20:43:10

解決方案1
0 2022-01-21 20:43:10