![](/img/trans.png)
[英]Unbounded increase in Q-Value, consequence of recurrent reward after repeating the same action in Q-Learning
[英]How to evaluate q-value network of sac agent in stable baselines (on a state-action pair)?
我在穩定的基線中實現 SAC 代理,需要在我的自定義環境中評估 q 值網絡。我試圖從 SAC 類對象中獲取 q 值,但失敗了。 任何像 PPO (.value) 這樣的方法或函數都會很有幫助。
我們不評估價值函數,我們評估政策。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.