簡體   English   中英

策略梯度算法是否屬於強化學習中的無模型或基於模型的方法?

[英]Does policy gradient algorithm comes under model free or model based methods in Reinforcement learning?

強化學習算法,明確地學習系統模型並使用它們來解決 MDP 問題,是基於模型的方法。 基於模型的強化學習受到控制理論的強烈影響,並且經常從不同學科的角度進行解釋。 這些方法包括流行的算法,例如 Dyna [Sutton 1991]、Q 迭代 [Busoniu 等人。 2010],策略梯度 (PG) [Williams 1992] 等。

無模型方法忽略模型,只專注於直接從與環境的交互中找出價值函數。 為了實現這一點,這些方法在很大程度上依賴於采樣和觀察。 因此他們不需要知道系統的內部工作。 這些方法的一些例子是 Q-learning [Krose 1995]、SARSA [Rummery and Niranjan 1994] 和 Actor-Critic [Konda and Tsitsiklis 1999]。

其他地方寫策略梯度是無模型的。 由於演員評論家也是策略梯度算法的一部分,所以有人可以清除它嗎?

策略梯度算法是無模型的。

在基於模型的算法中,代理可以訪問或學習環境的轉換函數 F(state, action) = reward, next_state。 這里的轉移函數可以是確定性的,也可以是隨機的。

換句話說,在基於模型的算法中,如果采取了特定的行動,代理會預測環境會發生什么(例如在這篇論文中: Atari 的基於模型的強化學習)。 或者,智能體可以根據問題的框架訪問轉換函數(例如,在 AlphaGo 中,智能體可以訪問圍棋板的轉換函數)。

在策略梯度算法中,代理有一個用於預測采取什么動作的策略網絡和一個用於預測當前狀態值的價值網絡。 這些網絡都不能預測環境的轉換函數。 因此,它被認為是無模型的。

您可能還會發現OpenAI Spinning Up 的分類圖很有幫助。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM