讓 Actor 和 Critic 使用截然不同的模型有好處嗎？

Question

在 Actor-Critic 方法中，Actor 和 Critic 被分配了兩個互補但不同的目標。 我試圖了解這些目標（更新策略和更新價值函數）之間的差異是否足夠大以保證演員和評論家的不同模型，或者它們是否具有足夠相似的復雜性以至於應該重用相同的 model為簡單起見。 我意識到這可能是非常有情境的，但不是以什么方式。 例如，隨着 model 復雜性的增加，平衡會發生變化嗎？

如果對此有任何經驗法則，或者您是否知道解決該問題的特定出版物，請告訴我。

Answer 1

實證結果表明恰恰相反——讓相同的.network 執行這兩項操作很重要（直到最后一層/頭部）。 這樣做的主要原因是學習 value.network (critis) 為塑造策略（參與者）的代表提供了信號，否則幾乎不可能獲得。

事實上，如果你考慮這些，這些是非常相似的目標，因為對於最佳確定性策略

pi(s) = arg max_a Q(s, a) = arg max_a V(T(s, a))

其中 T 是過渡動力學。

讓 Actor 和 Critic 使用截然不同的模型有好處嗎？

問題描述

1 個解決方案

解決方案1
1 已采納 2022-03-15 20:32:34

讓 Actor 和 Critic 使用截然不同的模型有好處嗎？

問題描述

1 個解決方案

解決方案1 1 已采納 2022-03-15 20:32:34

解決方案1
1 已采納 2022-03-15 20:32:34