簡體   English   中英

是否可以將探索率設置為 0,並關閉穩定基線 3 算法的網絡訓練?

[英]Is it possible to set the exploration rate to 0, and turn off network training for a Stable Baselines 3 algorithm?

在訓練穩定的基線 3 RL 算法(我主要使用 PPO)后,我想將探索率設置為 0,並關閉網絡訓練,這樣當給定相同的輸入時,我總是從 model 得到相同的 output(動作)(觀察)。 有可能這樣做嗎? 如果不是,是否有理由說明為什么不應該這樣做?

在調用 model.predict() 時將 deterministic 設置為 True 似乎可以解決問題(默認為 False):

model.predict(observation, deterministic=True)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM