簡體   English   中英

RL 算法成功玩 openai gym CartPole-v1,但在 atari Boxing-ram-v0 上失敗

[英]RL Algorithm successfully played openai gym CartPole-v1, but fails on atari Boxing-ram-v0

我最近實現了 ppo 算法他在 CartPole-v1 中運行良好但在 Boxing-ram-v0 中不起作用 有人能解釋一下嗎?

這是我的回購

這是 CartPole-v1 中的火車分數歷史

Boxing-ram-v0 中的和行為

有人可以解釋嗎?

我認為您的 model 的問題在於所有時間步的代理動作幾乎相同。 這可能是因為神經網絡變得飽和。 在 CartPole 環境中,所有維度的狀態都在 [-,1,1] 范圍內,但在 Boxing-ram-v0 環境中則不然。 因此,在將它們存儲在緩沖區中之前,您可能應該將狀態標准化為范圍 [-1,1]。

希望這可以幫助!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM