簡體 English 中英

策略梯度算法是否屬於強化學習中的無模型或基於模型的方法？

[英]Does policy gradient algorithm comes under model free or model based methods in Reinforcement learning?

原文 2020-02-14 07:21:47 6 1 reinforcement-learning/ markov-decision-process/ mdp

強化學習算法，明確地學習系統模型並使用它們來解決 MDP 問題，是基於模型的方法。 基於模型的強化學習受到控制理論的強烈影響，並且經常從不同學科的角度進行解釋。 這些方法包括流行的算法，例如 Dyna [Sutton 1991]、Q 迭代 [Busoniu 等人。 2010]，策略梯度 (PG) [Williams 1992] 等。

無模型方法忽略模型，只專注於直接從與環境的交互中找出價值函數。 為了實現這一點，這些方法在很大程度上依賴於采樣和觀察。 因此他們不需要知道系統的內部工作。 這些方法的一些例子是 Q-learning [Krose 1995]、SARSA [Rummery and Niranjan 1994] 和 Actor-Critic [Konda and Tsitsiklis 1999]。

其他地方寫策略梯度是無模型的。 由於演員評論家也是策略梯度算法的一部分，所以有人可以清除它嗎？

1 個解決方案

策略梯度算法是無模型的。

在基於模型的算法中，代理可以訪問或學習環境的轉換函數 F(state, action) = reward, next_state。 這里的轉移函數可以是確定性的，也可以是隨機的。

換句話說，在基於模型的算法中，如果采取了特定的行動，代理會預測環境會發生什么（例如在這篇論文中： Atari 的基於模型的強化學習）。 或者，智能體可以根據問題的框架訪問轉換函數（例如，在 AlphaGo 中，智能體可以訪問圍棋板的轉換函數）。

在策略梯度算法中，代理有一個用於預測采取什么動作的策略網絡和一個用於預測當前狀態值的價值網絡。 這些網絡都不能預測環境的轉換函數。 因此，它被認為是無模型的。

您可能還會發現OpenAI Spinning Up 的分類圖很有幫助。

基於模型的大狀態和動作空間強化學習算法的推廣

[英]Generalizing the Policy for Model-based reinforcement learning algorithm with large state and action spaces

損失政策梯度-強化學習

[英]Loss Policy Gradient - Reinforcement Learning

用Keras模型進行強化學習

[英]Reinforcement Learning with Keras model

強化學習中政策梯度下降的獎勵功能

[英]Reward function for Policy Gradient Descent in Reinforcement Learning

調試強化學習 Model (MsPacman)

[英]Debugging Reinforcement Learning Model (MsPacman)

如何實現強化學習模型？

[英]How to implement a reinforcement learning model?

在監督學習模型上應用“強化學習”

[英]Applying “reinforcement learning” on a supervised learning model

python 具有連續動作空間的策略梯度強化學習不起作用

[英]python policy gradient reinforcement learning with continous action space is not working

模型與政策強化學習有什么區別

[英]What is the difference between model and policy w.r.t reinforcement learning

Q學習與時間差異與基於模型的強化學習

[英]Q-learning vs temporal-difference vs model-based reinforcement learning

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 基於模型的大狀態和動作空間強化學習算法的推廣損失政策梯度-強化學習用Keras模型進行強化學習強化學習中政策梯度下降的獎勵功能調試強化學習 Model (MsPacman) 如何實現強化學習模型？在監督學習模型上應用“強化學習” python 具有連續動作空間的策略梯度強化學習不起作用模型與政策強化學習有什么區別 Q學習與時間差異與基於模型的強化學習

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM