簡體   English   中英

讓 Actor 和 Critic 使用截然不同的模型有好處嗎?

[英]Are there benefits to having Actor and Critic use significantly different models?

在 Actor-Critic 方法中,Actor 和 Critic 被分配了兩個互補但不同的目標。 我試圖了解這些目標(更新策略和更新價值函數)之間的差異是否足夠大以保證演員和評論家的不同模型,或者它們是否具有足夠相似的復雜性以至於應該重用相同的 model為簡單起見。 我意識到這可能是非常有情境的,但不是以什么方式。 例如,隨着 model 復雜性的增加,平衡會發生變化嗎?

如果對此有任何經驗法則,或者您是否知道解決該問題的特定出版物,請告訴我。

實證結果表明恰恰相反——讓相同的.network 執行這兩項操作很重要(直到最后一層/頭部)。 這樣做的主要原因是學習 value.network (critis) 為塑造策略(參與者)的代表提供了信號,否則幾乎不可能獲得。

事實上,如果你考慮這些,這些是非常相似的目標,因為對於最佳確定性策略

pi(s) = arg max_a Q(s, a) = arg max_a V(T(s, a))

其中 T 是過渡動力學。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM