簡體 English 中英

強化學習還是監督學習？

[英]Reinforcement Learning or Supervised Learning?

原文 2018-11-13 23:35:13 7 5 reinforcement-learning/ supervised-learning

如果在強化學習 (RL) 算法在現實世界中工作之前需要在模擬環境中進行大量迭代，為什么我們不使用相同的模擬環境來生成標記數據，然后使用監督學習方法而不是 RL？

5 個解決方案

究其原因，是因為這兩個領域有着根本的區別：

一個嘗試復制以前的結果，另一個嘗試比以前的結果更好。

機器學習有4個領域：

監督學習
無監督學習
半監督學習
強化學習

說一下你問的兩個領域，我們用射箭這個現實生活中的例子來直觀地探索它們。

監督學習

對於監督學習，我們可能會觀察一位弓箭手的動作，並記錄他們將弓弦拉回多遠、射擊角度等。然后我們回家建立模型。 在最理想的情況下，我們的模型變得不如主射手同樣。 它不會變得更好，因為監督學習中的損失函數通常是 MSE 或交叉熵，所以我們只是嘗試復制特征標簽映射。 構建模型后，我們部署它。 讓我們說我們特別花哨，讓它在線學習。 所以我們不斷地從弓箭大師那里獲取數據，並繼續學習與弓箭大師完全一樣。

最大的收獲：

我們試圖復制大師弓箭手只是因為我們認為他是最好的。 所以我們永遠打不過他。

強化學習

在強化學習中，我們只是建立一個模型並讓它嘗試許多不同的事情。 我們根據箭頭離靶心的距離給予獎勵/懲罰。 我們不是試圖復制任何行為，而是試圖找到我們自己的最佳行為。 因此，我們不會對我們認為的最佳射擊策略有任何偏見。

由於 RL 沒有任何先驗知識，因此 RL 可能難以收斂於困難的問題。 因此，有一種方法叫做學徒學習/模仿學習，我們基本上給 RL 一些弓箭手的軌跡，以便它可以有一個起點並開始收斂。 但在那之后，RL將采取隨機的行動有時會盡力去找其他的最優解探索。 這是監督學習無法做到的。 因為如果您使用監督學習進行探索，您基本上是說在這種狀態下采取此行動是最佳的。 然后你嘗試讓你的模型復制它。 但是這種情況在監督學習中是錯誤的，應該被視為數據中的異常值。

監督學習與強化學習的主要區別：

監督學習復制已經完成的工作
強化學習可以探索狀態空間，並進行隨機動作。 這使得 RL 可能比當前最好的更好。

為什么我們不使用相同的模擬環境來生成標記數據，然后使用監督學習方法而不是 RL

我們為 Deep RL 這樣做是因為它有一個經驗回放緩沖區。 但這對於監督學習是不可能的，因為缺乏獎勵的概念。

例子：走迷宮。

強化學習

在方格 3 中向右轉：獎勵 = 5

在方格 3 中左轉：獎勵 = 0

在方格 3 中上升：獎勵 = -5

監督學習

在第 3 廣場右轉

在廣場 3 左轉

在方格 3 中向上

當您嘗試在第 3 方格中做出決定時，RL 會知道要正確。 監督學習會混淆，因為在一個例子中，你的數據說在方格 3 中向右走，第二個例子說向左走，第三個例子說往上走。 所以它永遠不會收斂。

簡而言之，監督學習是被動學習，即在開始訓練模型之前收集所有數據。

然而，強化學習是主動學習。 在 RL 中，通常一開始沒有太多數據，然后在訓練模型時收集新數據。 您的 RL 算法和模型決定了您在訓練時可以收集哪些特定數據樣本。

在監督學習中，我們有被假定為正確的目標標記數據。

在RL 中，情況並非如此，我們只有獎勵。 代理需要在觀察環境獲得的獎勵的同時，通過與環境玩耍來確定自己要采取的行動。

監督學習是將監督者提供的知識（訓練數據）泛化到未知領域（測試數據）。 它基於指導性反饋，其中為代理提供正確的動作（標簽）以在給定的情況（特征）下采取。

強化學習是通過試錯的交互來學習。 沒有指導性反饋，只有評估性反饋，通過告知采取的行動有多好而不是說要采取的正確行動來評估代理采取的行動。

強化學習是機器學習的一個領域。 它是關於采取適當的行動以在特定情況下最大化獎勵。 它被各種軟件和機器用來尋找在特定情況下應該采取的最佳行為或路徑。 強化學習與監督學習的不同之處在於，在監督學習中，訓練數據具有答案密鑰，因此模型本身使用正確答案進行訓練，而在強化學習中，沒有答案，但強化代理決定要做什么執行給定的任務。 在沒有訓練數據集的情況下，它必然會從它的經驗中學習。