簡體 English 中英

RL 算法成功玩 openai gym CartPole-v1，但在 atari Boxing-ram-v0 上失敗

[英]RL Algorithm successfully played openai gym CartPole-v1, but fails on atari Boxing-ram-v0

原文 2020-05-13 01:20:20 1 1 python/ reinforcement-learning

我最近實現了 ppo 算法他在 CartPole-v1 中運行良好但在 Boxing-ram-v0 中不起作用有人能解釋一下嗎？

這是我的回購

這是 CartPole-v1 中的火車分數歷史

Boxing-ram-v0 中的和行為

有人可以解釋嗎？

1 個解決方案

我認為您的 model 的問題在於所有時間步的代理動作幾乎相同。 這可能是因為神經網絡變得飽和。 在 CartPole 環境中，所有維度的狀態都在 [-,1,1] 范圍內，但在 Boxing-ram-v0 環境中則不然。 因此，在將它們存儲在緩沖區中之前，您可能應該將狀態標准化為范圍 [-1,1]。

希望這可以幫助！

OpenAI Gym Cartpole-v0了解觀察與動作的關系

[英]OpenAI gym cartpole-v0 understanding observation and action relationship

Windows 上的 OpenAI Gym Atari

[英]OpenAI Gym Atari on Windows

DQN算法無法在CartPole-v0上收斂

[英]DQN algorithm does not converge on CartPole-v0

OpenAI Gym Atari游戲，TD策略應用

[英]OpenAI Gym Atari games, TD Policy application

gym.make（'CartPole-v0'）返回什么以及它如何工作？

[英]What does gym.make('CartPole-v0') return and how it does it work?

OpenAI 健身房：無法安裝 Atari 依賴項 (Mac OS X)

[英]OpenAI gym: Trouble installing Atari dependency (Mac OS X)

如何在 linux 上安裝 OpenAi 的 Gym Atari 依賴項？

[英]How to install the OpenAi's Gym Atari dependencies on linux?

如何解釋 OpenAI 健身房中 RAM 環境的觀察結果？

[英]How to interpret the observations of RAM environments in OpenAI gym?

如何在 openai-gym、強化學習的 Bipedalwalker-v3 中獲得目標 Q 值？

[英]How do I get Target Q-values in Bipedalwalker-v3 in openai-gym, reinforcement learning?

如何使用具有 Openai 穩定基線 RL 算法的自定義 Openai 健身房環境？

[英]How to use a custom Openai gym environment with Openai stable-baselines RL algorithms?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 OpenAI Gym Cartpole-v0了解觀察與動作的關系 Windows 上的 OpenAI Gym Atari DQN算法無法在CartPole-v0上收斂 OpenAI Gym Atari游戲，TD策略應用 gym.make（'CartPole-v0'）返回什么以及它如何工作？ OpenAI 健身房：無法安裝 Atari 依賴項 (Mac OS X) 如何在 linux 上安裝 OpenAi 的 Gym Atari 依賴項？如何解釋 OpenAI 健身房中 RAM 環境的觀察結果？如何在 openai-gym、強化學習的 Bipedalwalker-v3 中獲得目標 Q 值？如何使用具有 Openai 穩定基線 RL 算法的自定義 Openai 健身房環境？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM