簡體 English 中英

Evaluate_policy 記錄的平均獎勵比穩定基線高得多 3 記錄器

[英]Evaluate_policy records much higher mean reward then stable baselines 3 logger

原文 2023-01-21 12:01:15 1 1 reinforcement-learning/ stable-baselines

正如標題所說，我正在使用 SB3 在 Cartpole 環境中測試 PPO，但如果我看一下評估策略 function 的性能，我在 20000 個時間步長時獲得了 475 可靠的平均獎勵，但如果我看一下，我需要大約 90000 個時間步長控制台日志以在學習期間獲得可比較的結果。

為什么我的 model 在使用評估助手時表現得更好？

我在這兩種情況下都使用了相同的超參數，並且使用了一個新的環境來使用輔助方法進行評估。

1 個解決方案

我想我已經解決了“問題”：evaluate_policy 在其默認設置中使用確定性操作，從而更快地獲得更好的結果。

為什么 Stable-Baselines3 evaluate_policy() function 從未完成/完成？

[英]Why is the Stable-Baselines3 evaluate_policy() function never finishing/completing?

穩定基線中基於 LSTM 的策略 3 model

[英]LSTM based policy in stable baselines3 model

stable_baselines 模塊錯誤 -> 'gym.logger' 沒有屬性 'MIN_LEVEL'

[英]stable_baselines module error -> 'gym.logger' has no attribute 'MIN_LEVEL'

用例子訓練穩定的基線 3？

[英]train stable baselines 3 with examples?

穩定基線行動空間

[英]stable baselines action space

具有穩定基線的 GNN

[英]GNN with Stable baselines

如何在穩定的基線（在狀態-動作對上）評估 sac 代理的 q 值網絡？

[英]How to evaluate q-value network of sac agent in stable baselines (on a state-action pair)?

穩定的基線：DQN 運行不正常？

[英]Stable Baselines: DQN Not performing properly?

保存 PPO 模型並再次重新訓練的穩定基線

[英]Stable baselines saving PPO model and retraining it again

MlpLnLstmPolicyin穩定基准線的默認架構是什么？

[英]What is the defualt architecture for an MlpLnLstmPolicyin stable-baselines?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 為什么 Stable-Baselines3 evaluate_policy() function 從未完成/完成？穩定基線中基於 LSTM 的策略 3 model stable_baselines 模塊錯誤 -> 'gym.logger' 沒有屬性 'MIN_LEVEL' 用例子訓練穩定的基線 3？穩定基線行動空間具有穩定基線的 GNN 如何在穩定的基線（在狀態-動作對上）評估 sac 代理的 q 值網絡？穩定的基線：DQN 運行不正常？保存 PPO 模型並再次重新訓練的穩定基線 MlpLnLstmPolicyin穩定基准線的默認架構是什么？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM