簡體   English   中英

在任意較大的動作/狀態空間中進行強化學習

[英]Reinforcement Learning in arbitrarily large action/state spaces

我對使用深度強化學習感興趣,以便在(太多)可能性和一些(必需)中間采場(例如,購買咖啡或加油)中找到一條獨特的最佳回家之路。

此外,我想在代理不了解環境的“模型”並且代理完全無法嘗試狀態和動作的所有可能組合的情況下應用此方法。 即需要在Q值函數(和/或策略)中使用近似技術。

我已經讀過處理此類情況的方法-獎勵(如果有的話)是稀疏的和二進制的-例如,蒙特卡洛樹搜索(根據我的理解,這意味着某種建模和計划)或Hindsight Experience Replay(HER) ,運用DDPG的想法。

但是有太多不同種類的算法需要考慮,我對最好的開始有點困惑。 我知道這是一個棘手的問題,也許問這個問題太天真了,但是有沒有明確,直接且我們熟知的方法來解決我要面對的問題?

非常感謝!

馬蒂亞斯

如果最終目的地是固定的(在這種情況下(家)),則可以進行動態搜索,因為a *由於環境變化而無法使用。 如果您想使用深度學習算法,那么由於動作/狀態空間較大,請選擇具有重播經驗的a3c,它能夠處理復雜的探針。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM