簡體   English   中英

在POMDP中,“可控制的行為”是什么意思?

[英]What do we mean by “controllable actions” in a POMDP?

我有一些與POMDP相關的問題。

  1. 在部分可觀察的馬爾可夫決策過程中, 可控動作意味着什么? 還是在隱馬爾可夫狀態下沒有可控制的動作?

  2. 當通過價值或策略迭代來計算策略時,我們是否可以說POMDP是專家系統(因為我們對環境進行了建模)? 同時,當使用Q學習時 ,它在智能或對不斷變化的環境的適應性方面更靈活。

操作

可控制的行動是決策者做出選擇的結果。 在經典的POMDP老虎問題中,兩個門之一中隱藏着一只老虎。 在每個時間步驟,決策者可以選擇聆聽或打開一扇門。 在這種情況下的操作是{聽,打開左門,打開右門}。 從一種狀態到另一種狀態的轉換函數取決於先前的狀態和選擇的動作。

在隱馬爾可夫模型(HMM)中,決策者不采取任何行動。 在老虎問題的背景下,這意味着參與者只能在不打開門的情況下收聽。 在這種情況下,過渡功能僅取決於先前的狀態,因為沒有動作。

有關老虎問題的更多詳細信息,請參見Kaelbling Littman和Cassandra的1998 POMDP文件第5.1節。 教程中還有更多介紹性的演練

適應性

您問題的基本直覺是正確的,但可以改進。 POMDP是一類模型,而Q學習是一種解決方法。 您的問題的基本區別在於基於模型的方法與沒有模型的方法之間。 盡管部分可觀察性允許附加的不確定性,但POMDP都是基於模型的。 強化學習可以通過Q學習在無模型的情況下應用。 對於非平穩問題,無模型方法將更加靈活。 話雖如此,根據問題的復雜性,您可以將非平穩性納入模型本身,並將其視為MDP。

在回答這個問題時,對這些非平穩的模型折衷進行了非常徹底的討論。

最后,可以將POMDP視為專家系統是正確的。 Mazumdar等人(2017) 建議將馬爾可夫決策過程(MDP)視為專家系統。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM