是否可以將探索率設置為 0，並關閉穩定基線 3 算法的網絡訓練？

Question

在訓練穩定的基線 3 RL 算法（我主要使用 PPO）后，我想將探索率設置為 0，並關閉網絡訓練，這樣當給定相同的輸入時，我總是從 model 得到相同的 output（動作）（觀察）。 有可能這樣做嗎？ 如果不是，是否有理由說明為什么不應該這樣做？

Answer 1

在調用 model.predict() 時將 deterministic 設置為 True 似乎可以解決問題（默認為 False）：

model.predict(observation, deterministic=True)