簡體 English 中英

在每個州都處於終結狀態的強化學習

[英]Reinforcement Learning where every state is terminal

原文 2019-02-25 16:23:42 1 3 machine-learning/ reinforcement-learning

我的問題與強化學習的實施無關，而是在每個狀態都是終端狀態時理解RL的概念。

我舉一個例子：一個機器人正在學習踢足球，只是射擊。 獎勵是球射入球門后球與球門柱之間的距離。 狀態是具有多個特征的數組，而動作是具有三維力的數組。

如果考慮偶發性RL，我覺得這種方法沒有意義。 的確，機器人會射擊並給予獎勵：每個情節都是末期情節。 將下一個狀態傳遞給系統是沒有意義的，因為算法並不關心它是否可以優化獎勵-在這種情況下，我將使用Actor-Critic方法來處理連續狀態和動作空間。 有人可能會爭辯說，諸如深度神經網絡之類的其他有監督學習方法可能會更好。 但是我不確定，因為在那種情況下，如果輸入的數據遠離訓練集，該算法將無法獲得良好的結果。 據我所知，RL在這種情況下能夠更好地概括。

問題是：RL是解決此問題的有效方法嗎？在這種情況下，如何管理終端狀態？ 您知道文學中的類似例子嗎？

3 個解決方案

強化學習解決了您沒有的問題

RL方法的主要困難在於將獎勵歸因於更早的行動，找出在沒有對您做對或做錯的時間（和時間）沒有明確反饋的情況下如何處理（常見）並發症的方法。 您沒有這個問題-您可以直接從行動中獲得回報。

基本的監督學習方法可以很好地解決此問題，並且沒有理由參與強化學習“機器”。

在情節性RL中，沒有下一個狀態，而只是黑盒（BB）優化。 您的情況是上下文 BB，因為您也有一個狀態（我想是球的位置）。 您可以使用策略梯度（如NES或PGPE ），策略搜索（這是一個很好的調查），演化（ CMA-ES ）或混合策略。 它們在執行更新的方式上有所不同，但是它們都是與獎勵無關的，即，他們不知道獎勵功能，而只是獲得獎勵值。

它們都有相同的方法：

您有初步政策（又稱搜索分配），
查看功能並將其提供給策略，該策略將為您提供“操作”（在您的情況下：繪制機器人的控制參數，然后射擊），
看到獎勵，
重復並收集數據(features, action, reward) ，
更新策略，直到您了解能夠始終在任何位置擊球的機器人控制器。

編輯

由於沒有下一個狀態，因此您的問題有點像回歸問題，但是您不知道最佳目標（最佳動作=最佳機器人控制器）。 取而代之的是，您繪制一些目標並逐漸適應最佳目標（緩慢進行，例如使用梯度下降法，因為可能還需要探索更好的目標）。

如果我已正確理解您的問題，則您所描述的問題在文獻中稱為Contextual Bandits 。 在這種情況下，您具有一組狀態，並且座席執行一項操作后會獲得獎勵。 此問題與強化學習密切相關，但是它們具有一些特殊功能，可用於設計特定算法。

下圖摘自Arthur Juliani的文章，顯示了多臂強盜，情境強盜和強化學習問題之間的主要區別：

借助強化學習，教機器人在達到最終狀態之前收集網格世界中的項目

[英]Teach robot to collect items in grid world before reach terminal state by using reinforcement learning

在任意較大的動作/狀態空間中進行強化學習

[英]Reinforcement Learning in arbitrarily large action/state spaces

DQN（強化學習）：狀態應該標准化嗎？

[英]DQN(Reinforcement learning) : should state be standardized?

增強學習以獲取連續的狀態和動作空間

[英]Reinforcement learning for continuous state and action space

強化學習中的狀態依賴動作集

[英]State dependent action set in reinforcement learning

在強化學習中導致相同狀態的多個動作

[英]Multiple actions that lead to the same state in Reinforcement Learning

強化學習中同一狀態的不同獎勵

[英]Different rewards for same state in reinforcement learning

[英]Reinforcement Learning

加強對大型國家空間中多個參與者的政策的學習

[英]Reinforcement learning of a policy for multiple actors in large state spaces

當行動不影響強化學習中的狀態時，這叫什么？

[英]What is it called when the action doesnt affect the state in reinforcement learning?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 借助強化學習，教機器人在達到最終狀態之前收集網格世界中的項目在任意較大的動作/狀態空間中進行強化學習 DQN（強化學習）：狀態應該標准化嗎？增強學習以獲取連續的狀態和動作空間強化學習中的狀態依賴動作集在強化學習中導致相同狀態的多個動作強化學習中同一狀態的不同獎勵強化學習加強對大型國家空間中多個參與者的政策的學習當行動不影響強化學習中的狀態時，這叫什么？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM