簡體   English   中英

用於連續狀態,離散動作的強化學習算法

[英]Reinforcement learning algorithms for continuous states, discrete actions

我試圖在連續狀態(昏暗= 20)和離散動作(3種可能的動作)的環境中找到最優策略。 並且有一個特定的時刻:對於最優政策,一個動作(稱之為“動作0”)應該比其他兩個更頻繁地選擇(大約100倍以上;這兩個動作更有風險)。

我嘗試過使用NN值函數逼近的Q學習。 結果相當糟糕:NN學會總是選擇“動作0”。 我認為政策梯度方法(關於NN權重)可能有所幫助,但不了解如何在離散行動中使用它們。

你能給一些建議嘗試一下嗎? (也許算法,論文要讀)。 當狀態空間是連續的並且動作空間是離散的時,最先進的RL算法是什么?

謝謝。

在連續(狀態和/或動作)空間中應用Q學習並不是一項簡單的任務。 當嘗試將Q學習與全局函數逼近器(例如NN)結合時,尤其如此(我理解您指的是常見的多層感知器和反向傳播算法)。 您可以在Rich Sutton的頁面中閱讀更多內容。 更好(或至少更簡單)的解決方案是使用局部逼近器,例如徑向基函數網絡(對於本文第4.1節中的原因有很好的解釋)。

另一方面,狀態空間的維數可能太高而無法使用局部逼近器。 因此,我的建議是使用其他算法而不是Q學習。 用於連續狀態和離散動作的非常有競爭力的算法是Fitted Q Iteration ,其通常與樹方法結合以近似Q函數。

最后,一個常見的做法是,當動作的數量很少時,就像你的情況一樣,它是為每個動作使用一個獨立的近似值,即代替一個唯一的近似值,它將狀態 - 動作對作為輸入並返回一個Q值,使用三個近似值,每個動作一個,僅作為輸入狀態。 您可以在“ 使用函數逼近器進行強化學習和動態編程 ”一書的示例3.1中找到此示例

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM