簡體   English   中英

如何在穩定的基線(在狀態-動作對上)評估 sac 代理的 q 值網絡?

[英]How to evaluate q-value network of sac agent in stable baselines (on a state-action pair)?

我在穩定的基線中實現 SAC 代理,需要在我的自定義環境中評估 q 值網絡。我試圖從 SAC 類對象中獲取 q 值,但失敗了。 任何像 PPO (.value) 這樣的方法或函數都會很有幫助。

我們不評估價值函數,我們評估政策。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM