簡體 English 中英

用於連續狀態，離散動作的強化學習算法

[英]Reinforcement learning algorithms for continuous states, discrete actions

原文 2014-11-19 03:04:25 8 1 machine-learning/ reinforcement-learning

我試圖在連續狀態（昏暗= 20）和離散動作（3種可能的動作）的環境中找到最優策略。 並且有一個特定的時刻：對於最優政策，一個動作（稱之為“動作0”）應該比其他兩個更頻繁地選擇（大約100倍以上;這兩個動作更有風險）。

我嘗試過使用NN值函數逼近的Q學習。 結果相當糟糕：NN學會總是選擇“動作0”。 我認為政策梯度方法（關於NN權重）可能有所幫助，但不了解如何在離散行動中使用它們。

你能給一些建議嘗試一下嗎？ （也許算法，論文要讀）。 當狀態空間是連續的並且動作空間是離散的時，最先進的RL算法是什么？

謝謝。

1 個解決方案

在連續（狀態和/或動作）空間中應用Q學習並不是一項簡單的任務。 當嘗試將Q學習與全局函數逼近器（例如NN）結合時，尤其如此（我理解您指的是常見的多層感知器和反向傳播算法）。 您可以在Rich Sutton的頁面中閱讀更多內容。 更好（或至少更簡單）的解決方案是使用局部逼近器，例如徑向基函數網絡（對於本文第4.1節中的原因有很好的解釋）。

另一方面，狀態空間的維數可能太高而無法使用局部逼近器。 因此，我的建議是使用其他算法而不是Q學習。 用於連續狀態和離散動作的非常有競爭力的算法是Fitted Q Iteration ，其通常與樹方法結合以近似Q函數。

最后，一個常見的做法是，當動作的數量很少時，就像你的情況一樣，它是為每個動作使用一個獨立的近似值，即代替一個唯一的近似值，它將狀態 - 動作對作為輸入並返回一個Q值，使用三個近似值，每個動作一個，僅作為輸入狀態。 您可以在“ 使用函數逼近器進行強化學習和動態編程 ”一書的示例3.1中找到此示例

在強化學習中將離散動作轉換為連續動作

[英]Transfer Discrete action to Continuous action in Reinforcement Learning

具有可變動作的強化學習

[英]Reinforcement Learning With Variable Actions

強化學習方法，將連續映射到連續映射

[英]Reinforcement learning methodes that map continuous to continuous

在強化學習中定義狀態，Q和R矩陣

[英]Defining states, Q and R matrix in reinforcement learning

強化學習-如何擺脫“粘性”狀態？

[英]Reinforcement Learning - How to get out of 'sticky' states?

增強學習以獲取連續的狀態和動作空間

[英]Reinforcement learning for continuous state and action space

在強化學習中導致相同狀態的多個動作

[英]Multiple actions that lead to the same state in Reinforcement Learning

MDP & Reinforcement Learning - VI、PI 和 QLearning 算法的收斂性比較

[英]MDP & Reinforcement Learning - Convergence Comparison of VI, PI and QLearning Algorithms

如何將強化學習應用於連續動作空間？

[英]How can I apply reinforcement learning to continuous action spaces?

[英]Reinforcement Learning

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在強化學習中將離散動作轉換為連續動作具有可變動作的強化學習強化學習方法，將連續映射到連續映射在強化學習中定義狀態，Q和R矩陣強化學習-如何擺脫“粘性”狀態？增強學習以獲取連續的狀態和動作空間在強化學習中導致相同狀態的多個動作 MDP & Reinforcement Learning - VI、PI 和 QLearning 算法的收斂性比較如何將強化學習應用於連續動作空間？強化學習

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM