簡體   English   中英

強化學習中同一狀態的不同獎勵

[英]Different rewards for same state in reinforcement learning

我想為Chrome恐龍游戲(您離線時可以玩的那個)實施Q-Learning。

我將我的狀態定義為:到下一個障礙物的距離,速度和下一個障礙物的大小。

為了獎勵,我想使用成功通過障礙的數量,但可能會發生相同的狀態有不同的直接獎勵。 同樣類型的障礙可能會在游戲的后期重新出現,但是傳遞它的獎勵會更高,因為已經有更多的障礙。

我現在的問題是:這是一個問題還是Q-Learning仍然有效? 如果不是有更好的方法嗎?

一個的定義MDP說,報酬r(s,a,s')被定義為用於采取動作的預期回報a在狀態s搜索狀態s' 這意味着給定(s,a,s')可以具有不變的獎勵,或者只要具有明確的期望,就可以獲得一些獎勵。 正如您所定義的那樣,獎勵與通過的障礙數量成正比。 因為游戲可以永遠持續下去,所以某些(s,a,s')的獎勵看起來像是自然數的總和。 這個系列有所不同,所以沒有期望。 在實踐中,如果你運行Q-learning,你可能會看到值函數發散(NaN值),但是學習中間的策略可能沒問題,因為增長最快的值將是最好的狀態動作對。

為避免這種情況,您應該選擇不同的獎勵功能。 您可以獎勵代理人在其死亡時獲得的分數(最終獎勵很高,否則為零)。 只要代理人別無選擇,只要向前邁進,你也會很好地給予生活獎勵(每一步都有小獎勵)。 只要將最高總獎勵分配給最長的運行(並且對(s,a,s')元組的獎勵的期望得到很好的定義)它就是好的。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM