繁体 English 中英

Evaluate_policy 记录的平均奖励比稳定基线高得多 3 记录器

[英]Evaluate_policy records much higher mean reward then stable baselines 3 logger

原文 2023-01-21 12:01:15 3 1 reinforcement-learning/ stable-baselines

正如标题所说，我正在使用 SB3 在 Cartpole 环境中测试 PPO，但如果我看一下评估策略 function 的性能，我在 20000 个时间步长时获得了 475 可靠的平均奖励，但如果我看一下，我需要大约 90000 个时间步长控制台日志以在学习期间获得可比较的结果。

为什么我的 model 在使用评估助手时表现得更好？

我在这两种情况下都使用了相同的超参数，并且使用了一个新的环境来使用辅助方法进行评估。

1 个解决方案

我想我已经解决了“问题”：evaluate_policy 在其默认设置中使用确定性操作，从而更快地获得更好的结果。

为什么 Stable-Baselines3 evaluate_policy() function 从未完成/完成？

[英]Why is the Stable-Baselines3 evaluate_policy() function never finishing/completing?

稳定基线中基于 LSTM 的策略 3 model

[英]LSTM based policy in stable baselines3 model

stable_baselines 模块错误 -> 'gym.logger' 没有属性 'MIN_LEVEL'

[英]stable_baselines module error -> 'gym.logger' has no attribute 'MIN_LEVEL'

用例子训练稳定的基线 3？

[英]train stable baselines 3 with examples?

稳定基线行动空间

[英]stable baselines action space

具有稳定基线的 GNN

[英]GNN with Stable baselines

如何在稳定的基线（在状态-动作对上）评估 sac 代理的 q 值网络？

[英]How to evaluate q-value network of sac agent in stable baselines (on a state-action pair)?

稳定的基线：DQN 运行不正常？

[英]Stable Baselines: DQN Not performing properly?

保存 PPO 模型并再次重新训练的稳定基线

[英]Stable baselines saving PPO model and retraining it again

MlpLnLstmPolicyin稳定基准线的默认架构是什么？

[英]What is the defualt architecture for an MlpLnLstmPolicyin stable-baselines?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 为什么 Stable-Baselines3 evaluate_policy() function 从未完成/完成？稳定基线中基于 LSTM 的策略 3 model stable_baselines 模块错误 -> 'gym.logger' 没有属性 'MIN_LEVEL' 用例子训练稳定的基线 3？稳定基线行动空间具有稳定基线的 GNN 如何在稳定的基线（在状态-动作对上）评估 sac 代理的 q 值网络？稳定的基线：DQN 运行不正常？保存 PPO 模型并再次重新训练的稳定基线 MlpLnLstmPolicyin稳定基准线的默认架构是什么？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM