簡體   English   中英

增強學習以獲取連續的狀態和動作空間

[英]Reinforcement learning for continuous state and action space

問題

我的目標是應用強化學習來預測物體在3D環境下處於已知力下的下一個狀態(該方法將簡化為監督學習,離線學習)。

我的方法的細節

當前狀態是代表物體在環境中的位置(3維)和物體的速度(3維)的向量。 起始位置以及起始速度在環境中被隨機初始化。

動作是代表從狀態t到狀態t + 1的運動的向量。

獎勵只是預測的下一個狀態與實際的下一個狀態(我已經有了目標位置)之間的歐幾里得距離。

到目前為止,我做了什么?

我一直在尋找許多方法來做到這一點。 深度確定性策略梯度適用於連續的操作空間,但就我而言,我也具有連續的狀態空間。 如果您對此方法感興趣,請參考DeepMind上的原始文章: http//proceedings.mlr.press/v32/silver14.pdf

Actor-Critic方法應該可行,但通常(或始終)應用於離散和低維狀態空間。

Q-LearningDeep-Q Learning無法處理高維狀態空間,因此即使離散化狀態空間,我的配置也無法使用。

反向強化學習 (模仿學習的一個實例,具有行為克隆直接策略學習 )在發現獎勵功能比找到策略功能更為復雜時,可以近似獎勵功能。 有趣的方法,但是我還沒有看到任何實現,對於我來說,獎勵功能非常簡單。 有沒有可以解決我的配置問題的方法?

在您的問題中,我相信可能會有很多困惑和誤解。

  1. 首先,深度確定性策略梯度(DDPG) 絕對可以處理連續的狀態和動作。 它之所以如此著名僅是因為它。 而且,它是有史以來第一個穩定的架構。 另外,您鏈接的紙張實際上是DPG,而不是DDPG。 但是,DDPG和DPG都可以處理連續的狀態和動作,但是后者更加不穩定。 該論文實際上是由我在UofA的“高級”發表的。 這是DDPG的鏈接: https ://arxiv.org/pdf/1509.02971.pdf。

  2. 批評演員的RL不是算法,而是一個RL算法系列,其中演員將狀態映射到動作,而評論家對反饋信號進行“預處理”,以便演員可以更有效地學習它。 DDPG是演員評判機構的一個例子。 在DDPG中,DQN用作批注者,以對確定性策略梯度(參與者)的反饋信號進行預處理。

  3. Q學習和深度Q學習也是RL算法家族。 鑒於計算能力不足,Q學習當然不能處理高狀態空間,但是,深度Q學習當然可以。 深度Q網絡就是一個例子。

回到原來的問題。

我幾乎可以保證您可以使用DDPG解決您的問題。 實際上,DDPG仍然是可用於在連續狀態,連續動作空間中控制代理的僅有算法之一。

可以這樣做的另一種方法稱為信任區域策略優化(TRPO)。 它是由UC Bekelery團隊(以及OpenAI?)開發的。 TRPO和DDPG的基本結構是相同的(都是演員評判的),但是培訓是不同的。 DDPG使用目標網絡方法來確保收斂和穩定性,而TRPO在網絡更新上施加Kullerback-Leibler散度約束,以確保網絡的每次更新都不會太大(即,在t時刻網絡的最佳策略不會有太大差異)從t-1開始)。 TRPO非常難以編碼,因此,OpenAI發表了另一篇名為《近端策略梯度》(PPO)的論文。 此方法類似於TRPO,但更易於實現。

長話短說,我建議您嘗試DDPG,因為如果您的任務很簡單,那么DDPG肯定可以工作。

看起來可能是一篇不錯的論文。 如果動作空間不離散化,那么很難從巨大的連續狀態空間中指定或選擇一個動作。 當行動空間離散時,可能導致大量信息丟失。 提出的算法從策略網絡在離散空間中初始化的動作開始。 然后,它使用連續空間中的上限可信度(UCB)探索和評估價值網絡的行為。

還有其他幾篇論文可能值得一看,但是以上論文是最新的。 希望這會有所幫助。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM