簡體 English 中英

強化學習適用於 RANDOM 環境嗎？

[英]Is reinforcement learning applicable to a RANDOM environment?

原文 2018-10-10 16:32:27 2 2 machine-learning/ reinforcement-learning

我有一個關於強化學習 (RL) 在我們試圖解決的問題上的適用性的基本問題。

我們正在嘗試使用 RL 進行庫存管理 - 其中需求是完全隨機的（它可能在現實生活中具有模式，但現在讓我們假設我們被迫將其視為純粹隨機的）。

據我了解，RL 可以幫助學習如何玩游戲（比如國際象棋）或幫助機器人學習走路。 但是所有游戲都有規則，“推車桿”（OpenAI Gym 的）也是如此——有一些“物理”規則控制着推車桿何時會翻倒。

對於我們的問題，沒有規則——環境隨機變化（對產品的需求）。

RL 真的適用於這種情況嗎？

如果是這樣 - 那么什么會提高性能？

更多細節： - “環境”中僅有的兩個刺激是當前可用的產品“X”級別和當前需求“Y” - “動作”是二元的 - 我是否訂購數量“Q”來補充或者我沒有（離散動作空間）。 - 我們正在使用 DQN 和 Adam 優化器。

我們的結果很差 - 我承認我只訓練了大約 5,000 或 10,000 - 我應該讓它訓練幾天，因為它是一個隨機環境嗎？

謝謝拉傑什

2 個解決方案

你說的是非平穩意義上的隨機，所以，不，RL 在這里不是最好的。

強化學習假設您的環境是靜止的。 在整個學習過程中，環境的潛在概率分布（轉換和獎勵函數）必須保持不變。

當然，RL 和 DRL 可以處理一些稍微不穩定的問題，但它在這方面很掙扎。 馬爾可夫決策過程 (MDP) 和部分可觀察的 MDP 假設是平穩的。 因此，專門用於開發類似 MDP 環境的基於價值的算法，例如 SARSA、Q-learning、DQN、DDQN、Dueling DQN 等，在非平穩環境中將很難學習任何東西。 您越是采用基於策略的算法，例如 PPO、TRPO，或者甚至更好的無梯度算法，例如 GA、CEM 等，您就有越大的機會，因為這些算法不會嘗試利用這一假設。 此外，調整學習率對於確保代理永遠不會停止學習至關重要。

最好的選擇是采用黑盒優化方法，例如遺傳算法等。

可以通過用具有可能值的分布替換單個平均獎勵輸出來處理隨機性。 通過引入新的學習規則，反映了從貝爾曼（平均）方程到其分布對應物的轉變，價值分布方法已經能夠超越所有其他可比方法的性能。

https://deepmind.com/blog/going-beyond-average-reinforcement-learning/