繁体   English   中英

是否可以将探索率设置为 0,并关闭稳定基线 3 算法的网络训练?

[英]Is it possible to set the exploration rate to 0, and turn off network training for a Stable Baselines 3 algorithm?

在训练稳定的基线 3 RL 算法(我主要使用 PPO)后,我想将探索率设置为 0,并关闭网络训练,这样当给定相同的输入时,我总是从 model 得到相同的 output(动作)(观察)。 有可能这样做吗? 如果不是,是否有理由说明为什么不应该这样做?

在调用 model.predict() 时将 deterministic 设置为 True 似乎可以解决问题(默认为 False):

model.predict(observation, deterministic=True)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM