![](/img/trans.png)
[英]OpenAI gym cartpole-v0 understanding observation and action relationship
[英]RL Algorithm successfully played openai gym CartPole-v1, but fails on atari Boxing-ram-v0
我最近實現了 ppo 算法他在 CartPole-v1 中運行良好但在 Boxing-ram-v0 中不起作用 有人能解釋一下嗎?
有人可以解釋嗎?
我認為您的 model 的問題在於所有時間步的代理動作幾乎相同。 這可能是因為神經網絡變得飽和。 在 CartPole 環境中,所有維度的狀態都在 [-,1,1] 范圍內,但在 Boxing-ram-v0 環境中則不然。 因此,在將它們存儲在緩沖區中之前,您可能應該將狀態標准化為范圍 [-1,1]。
希望這可以幫助!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.