简体   繁体   English

Evaluate_policy 记录的平均奖励比稳定基线高得多 3 记录器

[英]Evaluate_policy records much higher mean reward then stable baselines 3 logger

As the title says, I am testen PPO with the Cartpole Environment using SB3, but if I look at the performance measured be the evaluate_policy function I reach a mean reward of 475 reliable at 20000 timesteps, but I need about 90000 timesteps if I look at console log to get comparable results during learning.正如标题所说,我正在使用 SB3 在 Cartpole 环境中测试 PPO,但如果我看一下评估策略 function 的性能,我在 20000 个时间步长时获得了 475 可靠的平均奖励,但如果我看一下,我需要大约 90000 个时间步长控制台日志以在学习期间获得可比较的结果。

Why does my model perform so much better using the evaluation helper?为什么我的 model 在使用评估助手时表现得更好?

I used the same hyperparameters in both cases, and I used a new environment for the evaluation with the helper method.我在这两种情况下都使用了相同的超参数,并且使用了一个新的环境来使用辅助方法进行评估。

I think I have solved the "problem": evaluate_policy uses deterministic action in it's default settings, which leads to better results faster.我想我已经解决了“问题”:evaluate_policy 在其默认设置中使用确定性操作,从而更快地获得更好的结果。

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM