簡體 English 中英

在任意較大的動作/狀態空間中進行強化學習

[英]Reinforcement Learning in arbitrarily large action/state spaces

原文 2019-03-13 11:21:04 8 1 machine-learning/ deep-learning/ artificial-intelligence/ reinforcement-learning/ approximate-nn-searching

我對使用深度強化學習感興趣，以便在（太多）可能性和一些（必需）中間采場（例如，購買咖啡或加油）中找到一條獨特的最佳回家之路。

此外，我想在代理不了解環境的“模型”並且代理完全無法嘗試狀態和動作的所有可能組合的情況下應用此方法。 即需要在Q值函數（和/或策略）中使用近似技術。

我已經讀過處理此類情況的方法-獎勵（如果有的話）是稀疏的和二進制的-例如，蒙特卡洛樹搜索（根據我的理解，這意味着某種建模和計划）或Hindsight Experience Replay（HER），運用DDPG的想法。

但是有太多不同種類的算法需要考慮，我對最好的開始有點困惑。 我知道這是一個棘手的問題，也許問這個問題太天真了，但是有沒有明確，直接且我們熟知的方法來解決我要面對的問題？

非常感謝！

馬蒂亞斯

1 個解決方案

如果最終目的地是固定的（在這種情況下（家）），則可以進行動態搜索，因為a *由於環境變化而無法使用。 如果您想使用深度學習算法，那么由於動作/狀態空間較大，請選擇具有重播經驗的a3c，它能夠處理復雜的探針。

基於模型的大狀態和動作空間強化學習算法的推廣

[英]Generalizing the Policy for Model-based reinforcement learning algorithm with large state and action spaces

加強對大型國家空間中多個參與者的政策的學習

[英]Reinforcement learning of a policy for multiple actors in large state spaces

增強學習以獲取連續的狀態和動作空間

[英]Reinforcement learning for continuous state and action space

強化學習中的狀態依賴動作集

[英]State dependent action set in reinforcement learning

如何將強化學習應用於連續動作空間？

[英]How can I apply reinforcement learning to continuous action spaces?

當行動不影響強化學習中的狀態時，這叫什么？

[英]What is it called when the action doesnt affect the state in reinforcement learning?

強化學習中的多維動作空間

[英]Multidimensional Action Space in Reinforcement Learning

在強化學習中將離散動作轉換為連續動作

[英]Transfer Discrete action to Continuous action in Reinforcement Learning

強化學習：為連續動作和連續狀態空間選擇離散化步驟和性能指標的困境

[英]Reinforcement Learning: The dilemma of choosing discretization steps and performance metrics for continuous action and continuous state space

DQN（強化學習）：狀態應該標准化嗎？

[英]DQN(Reinforcement learning) : should state be standardized?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 基於模型的大狀態和動作空間強化學習算法的推廣加強對大型國家空間中多個參與者的政策的學習增強學習以獲取連續的狀態和動作空間強化學習中的狀態依賴動作集如何將強化學習應用於連續動作空間？當行動不影響強化學習中的狀態時，這叫什么？強化學習中的多維動作空間在強化學習中將離散動作轉換為連續動作強化學習：為連續動作和連續狀態空間選擇離散化步驟和性能指標的困境 DQN（強化學習）：狀態應該標准化嗎？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM