簡體 English 中英

Q學習與時間差異與基於模型的強化學習

[英]Q-learning vs temporal-difference vs model-based reinforcement learning

原文 2015-12-09 14:17:54 8 1 machine-learning/ reinforcement-learning/ q-learning/ temporal-difference

我正在大學里學習一門名為“智能機器”的課程。 我們介紹了3種強化學習方法，並且我們直接了解了何時使用它們，並引用：

Q-Learning - 無法解決MDP的最佳選擇。
時間差異學習 - 當MDP已知或可以學習但無法解決時最佳。
基於模型 - 在無法學習MDP時最佳。

是否有任何好的例子說明何時選擇一種方法而不是另一種方法？

1 個解決方案

時間差異是一種學習如何預測取決於給定信號的未來值的數量的方法。 它可用於學習V函數和Q函數，而Q學習是用於學習Q函數的特定TD算法。 正如Don Reba所說，你需要Q函數來執行一個動作（例如，遵循一個貪婪的政策）。 如果您只有V函數，您仍然可以通過迭代所有可能的下一個狀態並選擇導致您進入具有最高V值的狀態的操作來推導Q函數。 有關示例和更多見解，我推薦Sutton和Barto的經典書籍。

在無模型 RL中，您不會學習狀態轉換函數（模型），您只能依賴於樣本。 但是，您可能也對學習它感興趣，例如因為您無法收集許多樣本並希望生成一些虛擬樣本。 在這種情況下，我們談論基於模型的 RL。 基於模型的RL在機器人技術中非常普遍，在這種情況下，您無法執行許多真實的模擬，或者機器人會破壞。 這是一個很好的調查，有許多例子（但它只涉及政策搜索算法）。 再舉一個例子來看看這篇論文。 在這里，作者學習 - 以及策略 - 高斯過程來近似機器人的正演模型，以模擬軌跡並減少真實機器人交互的數量。