簡體   English   中英

在每個州都處於終結狀態的強化學習

[英]Reinforcement Learning where every state is terminal

我的問題與強化學習的實施無關,而是在每個狀態都是終端狀態時理解RL的概念。

我舉一個例子:一個機器人正在學習踢足球,只是射擊。 獎勵是球射入球門后球與球門柱之間的距離。 狀態是具有多個特征的數組,而動作是具有三維力的數組。

如果考慮偶發性RL,我覺得這種方法沒有意義。 的確,機器人會射擊並給予獎勵:每個情節都是末期情節。 將下一個狀態傳遞給系統是沒有意義的,因為算法並不關心它是否可以優化獎勵-在這種情況下,我將使用Actor-Critic方法來處理連續狀態和動作空間。 有人可能會爭辯說,諸如深度神經網絡之類的其他有監督學習方法可能會更好。 但是我不確定,因為在那種情況下,如果輸入的數據遠離訓練集,該算法將無法獲得良好的結果。 據我所知,RL在這種情況下能夠更好地概括。

問題是:RL是解決此問題的有效方法嗎?在這種情況下,如何管理終端狀態? 您知道文學中的類似例子嗎?

強化學習解決了您沒有的問題

RL方法的主要困難在於將獎勵歸因於更早的行動,找出在沒有對您做對或做錯的時間(和時間)沒有明確反饋的情況下如何處理(常見)並發症的方法。 您沒有這個問題-您可以直接從行動中獲得回報。

基本的監督學習方法可以很好地解決此問題,並且沒有理由參與強化學習“機器”。

在情節性RL中,沒有下一個狀態,而只是黑盒(BB)優化。 您的情況是上下文 BB,因為您也有一個狀態(我想是球的位置)。 您可以使用策略梯度(如NESPGPE ),策略搜索( 是一個很好的調查),演化( CMA-ES )或混合策略。 它們在執行更新的方式上有所不同,但是它們都是與獎勵無關的,即,他們不知道獎勵功能,而只是獲得獎勵值。

它們都有相同的方法:

  • 您有初步政策(又稱搜索分配),
  • 查看功能並將其提供給策略,該策略將為您提供“操作”(在您的情況下:繪制機器人的控制參數,然后射擊),
  • 看到獎勵,
  • 重復並收集數據(features, action, reward)
  • 更新策略,直到您了解能夠始終在任何位置擊球的機器人控制器。

編輯

由於沒有下一個狀態,因此您的問題有點像回歸問題,但是您不知道最佳目標(最佳動作=最佳機器人控制器)。 取而代之的是,您繪制一些目標並逐漸適應最佳目標(緩慢進行,例如使用梯度下降法,因為可能還需要探索更好的目標)。

如果我已正確理解您的問題,則您所描述的問題在文獻中稱為Contextual Bandits 在這種情況下,您具有一組狀態,並且座席執行一項操作后會獲得獎勵。 此問題與強化學習密切相關,但是它們具有一些特殊功能,可用於設計特定算法。

下圖摘自Arthur Juliani的文章 ,顯示了多臂強盜,情境強盜和強化學習問題之間的主要區別:

在此處輸入圖片說明

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM