簡體   English   中英

Evaluate_policy 記錄的平均獎勵比穩定基線高得多 3 記錄器

[英]Evaluate_policy records much higher mean reward then stable baselines 3 logger

正如標題所說,我正在使用 SB3 在 Cartpole 環境中測試 PPO,但如果我看一下評估策略 function 的性能,我在 20000 個時間步長時獲得了 475 可靠的平均獎勵,但如果我看一下,我需要大約 90000 個時間步長控制台日志以在學習期間獲得可比較的結果。

為什么我的 model 在使用評估助手時表現得更好?

我在這兩種情況下都使用了相同的超參數,並且使用了一個新的環境來使用輔助方法進行評估。

我想我已經解決了“問題”:evaluate_policy 在其默認設置中使用確定性操作,從而更快地獲得更好的結果。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM