簡體   English   中英

強化學習適用於 RANDOM 環境嗎?

[英]Is reinforcement learning applicable to a RANDOM environment?

我有一個關於強化學習 (RL) 在我們試圖解決的問題上的適用性的基本問題。

我們正在嘗試使用 RL 進行庫存管理 - 其中需求是完全隨機的(它可能在現實生活中具有模式,但現在讓我們假設我們被迫將其視為純粹隨機的)。

據我了解,RL 可以幫助學習如何玩游戲(比如國際象棋)或幫助機器人學習走路。 但是所有游戲都有規則,“推車桿”(OpenAI Gym 的)也是如此——有一些“物理”規則控制着推車桿何時會翻倒。

對於我們的問題,沒有規則——環境隨機變化(對產品的需求)。

RL 真的適用於這種情況嗎?

如果是這樣 - 那么什么會提高性能?

更多細節: - “環境”中僅有的兩個刺激是當前可用的產品“X”級別和當前需求“Y” - “動作”是二元的 - 我是否訂購數量“Q”來補充或者我沒有(離散動作空間)。 - 我們正在使用 DQN 和 Adam 優化器。

我們的結果很差 - 我承認我只訓練了大約 5,000 或 10,000 - 我應該讓它訓練幾天,因為它是一個隨機環境嗎?

謝謝拉傑什

你說的是非平穩意義上的隨機,所以,不,RL 在這里不是最好的。

強化學習假設您的環境是靜止的。 在整個學習過程中,環境的潛在概率分布(轉換和獎勵函數)必須保持不變。

當然,RL 和 DRL 可以處理一些稍微不穩定的問題,但它在這方面很掙扎。 馬爾可夫決策過程 (MDP) 和部分可觀察的 MDP 假設是平穩的。 因此,專門用於開發類似 MDP 環境的基於價值的算法,例如 SARSA、Q-learning、DQN、DDQN、Dueling DQN 等,在非平穩環境中將很難學習任何東西。 您越是采用基於策略的算法,例如 PPO、TRPO,或者甚至更好的無梯度算法,例如 GA、CEM 等,您就有越大的機會,因為這些算法不會嘗試利用這一假設。 此外,調整學習率對於確保代理永遠不會停止學習至關重要。

最好的選擇是采用黑盒優化方法,例如遺傳算法等。

可以通過用具有可能值的分布替換單個平均獎勵輸出來處理隨機性。 通過引入新的學習規則,反映了從貝爾曼(平均)方程到其分布對應物的轉變,價值分布方法已經能夠超越所有其他可比方法的性能。

https://deepmind.com/blog/going-beyond-average-reinforcement-learning/

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM