簡體 English 中英

在POMDP中，“可控制的行為”是什么意思？

[英]What do we mean by “controllable actions” in a POMDP?

原文 2017-11-27 13:28:08 5 1 artificial-intelligence/ probability/ reinforcement-learning/ expert-system/ markov-decision-process

我有一些與POMDP相關的問題。

在部分可觀察的馬爾可夫決策過程中， 可控動作意味着什么？ 還是在隱馬爾可夫狀態下沒有可控制的動作？
當通過價值或策略迭代來計算策略時，我們是否可以說POMDP是專家系統（因為我們對環境進行了建模）？ 同時，當使用Q學習時 ，它在智能或對不斷變化的環境的適應性方面更靈活。

1 個解決方案

操作

可控制的行動是決策者做出選擇的結果。 在經典的POMDP老虎問題中，兩個門之一中隱藏着一只老虎。 在每個時間步驟，決策者可以選擇聆聽或打開一扇門。 在這種情況下的操作是{聽，打開左門，打開右門}。 從一種狀態到另一種狀態的轉換函數取決於先前的狀態和選擇的動作。

在隱馬爾可夫模型（HMM）中，決策者不采取任何行動。 在老虎問題的背景下，這意味着參與者只能在不打開門的情況下收聽。 在這種情況下，過渡功能僅取決於先前的狀態，因為沒有動作。

有關老虎問題的更多詳細信息，請參見Kaelbling Littman和Cassandra的1998 POMDP文件第5.1節。 本教程中還有更多介紹性的演練。

適應性

您問題的基本直覺是正確的，但可以改進。 POMDP是一類模型，而Q學習是一種解決方法。 您的問題的基本區別在於基於模型的方法與沒有模型的方法之間。 盡管部分可觀察性允許附加的不確定性，但POMDP都是基於模型的。 強化學習可以通過Q學習在無模型的情況下應用。 對於非平穩問題，無模型方法將更加靈活。 話雖如此，根據問題的復雜性，您可以將非平穩性納入模型本身，並將其視為MDP。

在回答這個問題時，對這些非平穩的模型折衷進行了非常徹底的討論。

最后，可以將POMDP視為專家系統是正確的。 Mazumdar等人（2017）建議將馬爾可夫決策過程（MDP）視為專家系統。

如何將 UNO 建模為 POMDP

[英]How to model UNO as a POMDP

:: pause> nul是什么意思？（分批）

[英]What does ::pause >nul mean/do? (in batch)

“在分配之前引用了本地變量'e'”，此錯誤是什么意思？如何解決此錯誤？

[英]“local variable 'e' referenced before assignment” what does this error mean? How do I fix this error?

<-a ||是什么 b是指偽代碼？

[英]What does a <- a || b mean in pseudocode?

人工智能中的事件是什么意思

[英]What is mean by Events in Artificial Intelligence

A*算法中的星號是什么意思？

[英]What does the star in the A* algorithm mean?

維數降低意味着什么？

[英]What does dimensionality reduction mean?

如果我們不將激活應用於前饋神經網絡的隱藏層而僅應用於輸出層怎么辦？

[英]What if we do not apply activation to the hidden layers and only to the output layer of a feed forward neural network?

JASON內部動作可以與Spring Autowire一起使用嗎？

[英]Do JASON internal actions work with Spring Autowire?

強化學習文獻中的“軟”是什么意思？

[英]What does "soft" in reinforcement learning literature mean?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何將 UNO 建模為 POMDP :: pause> nul是什么意思？（分批） “在分配之前引用了本地變量'e'”，此錯誤是什么意思？如何解決此錯誤？ <-a ||是什么 b是指偽代碼？人工智能中的事件是什么意思 A*算法中的星號是什么意思？維數降低意味着什么？如果我們不將激活應用於前饋神經網絡的隱藏層而僅應用於輸出層怎么辦？ JASON內部動作可以與Spring Autowire一起使用嗎？強化學習文獻中的“軟”是什么意思？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM