簡體 English 中英

增強學習以獲取連續的狀態和動作空間

[英]Reinforcement learning for continuous state and action space

原文 2019-01-05 11:24:35 2 2 python/ machine-learning/ artificial-intelligence/ reinforcement-learning

問題

我的目標是應用強化學習來預測物體在3D環境下處於已知力下的下一個狀態（該方法將簡化為監督學習，離線學習）。

我的方法的細節

當前狀態是代表物體在環境中的位置（3維）和物體的速度（3維）的向量。 起始位置以及起始速度在環境中被隨機初始化。

動作是代表從狀態t到狀態t + 1的運動的向量。

獎勵只是預測的下一個狀態與實際的下一個狀態（我已經有了目標位置）之間的歐幾里得距離。

到目前為止，我做了什么？

我一直在尋找許多方法來做到這一點。 深度確定性策略梯度適用於連續的操作空間，但就我而言，我也具有連續的狀態空間。 如果您對此方法感興趣，請參考DeepMind上的原始文章： http ： //proceedings.mlr.press/v32/silver14.pdf

Actor-Critic方法應該可行，但通常（或始終）應用於離散和低維狀態空間。

Q-Learning和Deep-Q Learning無法處理高維狀態空間，因此即使離散化狀態空間，我的配置也無法使用。

反向強化學習 （模仿學習的一個實例，具有行為克隆和直接策略學習 ）在發現獎勵功能比找到策略功能更為復雜時，可以近似獎勵功能。 有趣的方法，但是我還沒有看到任何實現，對於我來說，獎勵功能非常簡單。 有沒有可以解決我的配置問題的方法？

2 個解決方案

在您的問題中，我相信可能會有很多困惑和誤解。

首先，深度確定性策略梯度（DDPG）絕對可以處理連續的狀態和動作。 它之所以如此著名僅是因為它。 而且，它是有史以來第一個穩定的架構。 另外，您鏈接的紙張實際上是DPG，而不是DDPG。 但是，DDPG和DPG都可以處理連續的狀態和動作，但是后者更加不穩定。 該論文實際上是由我在UofA的“高級”發表的。 這是DDPG的鏈接： https ://arxiv.org/pdf/1509.02971.pdf。
批評演員的RL不是算法，而是一個RL算法系列，其中演員將狀態映射到動作，而評論家對反饋信號進行“預處理”，以便演員可以更有效地學習它。 DDPG是演員評判機構的一個例子。 在DDPG中，DQN用作批注者，以對確定性策略梯度（參與者）的反饋信號進行預處理。
Q學習和深度Q學習也是RL算法家族。 鑒於計算能力不足，Q學習當然不能處理高狀態空間，但是，深度Q學習當然可以。 深度Q網絡就是一個例子。

回到原來的問題。

我幾乎可以保證您可以使用DDPG解決您的問題。 實際上，DDPG仍然是可用於在連續狀態，連續動作空間中控制代理的僅有算法之一。

可以這樣做的另一種方法稱為信任區域策略優化（TRPO）。 它是由UC Bekelery團隊（以及OpenAI？）開發的。 TRPO和DDPG的基本結構是相同的（都是演員評判的），但是培訓是不同的。 DDPG使用目標網絡方法來確保收斂和穩定性，而TRPO在網絡更新上施加Kullerback-Leibler散度約束，以確保網絡的每次更新都不會太大（即，在t時刻網絡的最佳策略不會有太大差異）從t-1開始）。 TRPO非常難以編碼，因此，OpenAI發表了另一篇名為《近端策略梯度》（PPO）的論文。 此方法類似於TRPO，但更易於實現。

長話短說，我建議您嘗試DDPG，因為如果您的任務很簡單，那么DDPG肯定可以工作。

看起來這可能是一篇不錯的論文。 如果動作空間不離散化，那么很難從巨大的連續狀態空間中指定或選擇一個動作。 當行動空間離散時，可能導致大量信息丟失。 提出的算法從策略網絡在離散空間中初始化的動作開始。 然后，它使用連續空間中的上限可信度（UCB）探索和評估價值網絡的行為。

還有其他幾篇論文可能值得一看，但是以上論文是最新的。 希望這會有所幫助。

python 具有連續動作空間的策略梯度強化學習不起作用

[英]python policy gradient reinforcement learning with continous action space is not working

強化學習中如何處理不同的狀態空間大小？

[英]How to deal with different state space size in reinforcement learning?

在為強化學習設計網格世界時如何表示狀態空間

[英]How to represent state space when designing a grid world for reinforcement learning

強化學習方法，將連續映射到連續映射

[英]Reinforcement learning methodes that map continuous to continuous

沒有最終狀態的強化學習？

[英]Reinforcement Learning without a final state?

Python 強化學習 - 元組觀察空間

[英]Python Reinforcement Learning - Tuple Observation Space

DQN（強化學習）：狀態應該標准化嗎？

[英]DQN(Reinforcement learning) : should state be standardized?

Pytorch 示例來自 Deep Reinforcement learning in action 運行速度太慢

[英]Pytorch example from Deep Reinforcement learning in action running too slow

強化學習，鍾擺蟒蛇

[英]Reinforcement learning, pendulum python

強化學習中的負面獎勵

[英]Negative reward in reinforcement learning

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 python 具有連續動作空間的策略梯度強化學習不起作用強化學習中如何處理不同的狀態空間大小？在為強化學習設計網格世界時如何表示狀態空間強化學習方法，將連續映射到連續映射沒有最終狀態的強化學習？ Python 強化學習 - 元組觀察空間 DQN（強化學習）：狀態應該標准化嗎？ Pytorch 示例來自 Deep Reinforcement learning in action 運行速度太慢強化學習，鍾擺蟒蛇強化學習中的負面獎勵

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM