是否可以将探索率设置为 0，并关闭稳定基线 3 算法的网络训练？

Question

在训练稳定的基线 3 RL 算法（我主要使用 PPO）后，我想将探索率设置为 0，并关闭网络训练，这样当给定相同的输入时，我总是从 model 得到相同的 output（动作）（观察）。 有可能这样做吗？ 如果不是，是否有理由说明为什么不应该这样做？

Answer 1

在调用 model.predict() 时将 deterministic 设置为 True 似乎可以解决问题（默认为 False）：

model.predict(observation, deterministic=True)