簡體 English 中英

馬爾可夫決策過程中的建模動作使用限制

[英]Modelling action use limit in Markov Decision Process

原文 2021-03-22 05:19:25 6 1 reinforcement-learning/ markov-chains/ state-diagram/ markov-decision-process

我有一個包含一定數量的狀態和動作的馬爾可夫決策過程。 我想在我的 model 中加入一個只能在任何狀態下使用一次的動作，並且使用后不能再次使用。 我如何在我的 state 圖中執行 model 這個動作？ 我想有一個單獨的 state 並使用 -inf 作為獎勵，但這些似乎都沒有用。 謝謝！

1 個解決方案

為了滿足 Markov 屬性，您必須在每個 state 中包含之前是否使用過此操作的信息，沒有其他方法可以解決。 這將使您的 state 空間更大，但隨后您的 state 圖將按您預期的那樣運行。

假設您有三個狀態：S = {1,2,3} 和兩個動作 A={1,2}，其中每個動作只能在每個 state 中使用一次。那么您現在將擁有狀態 S = {( 1,p1,p2), (2,p1,p2), (3,p1,p2)}，其中 p1 是一個 boolean 動作 1 之前是否已經在這個 state 中使用過，p2 是一個 boolean 表示動作 2 是否已經以前在這個 state 中使用過。這意味着你現在總共有 12 個狀態：S={(1,0,0), (1,1,0), (1,0,1), (1,1 ,1), (2,0,0), (2,1,0), (2,0,1), (2,1,1), (3,0,0), (3,1,0 ), (3,0,1), (3,1,1)}

值迭代不收斂-馬爾可夫決策過程

[英]Value iteration not converging - Markov decision process

具有值迭代的馬爾可夫決策過程動態規划

[英]Dynamic Programming of Markov Decision Process with Value Iteration

有人可以用一個例子解釋部分可觀察的馬爾可夫決策過程（POMDP）嗎？

[英]Can someone explain partially observable Markov decision process (POMDP) with an example?

部分可觀察的馬爾可夫決策過程最優值函數

[英]Partially Observable Markov Decision Process Optimal Value function

Java中的馬爾可夫模型決策過程

[英]Markov Model descision process in Java

強化學習中行動限制的限制

[英]Limit on Action Change in reinforcement learning

為什么環境狀態為markov？

[英]Why is the environment state markov?

進一步了解馬爾可夫性質

[英]Understanding Markov Property further

OpenAI Gym action_space如何限制選擇

[英]OpenAI gym action_space how to limit choices

馬爾可夫強化學習的擬合值迭代算法

[英]Fitted value iteration algorithm of Markov Reinforcement Learning

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 值迭代不收斂-馬爾可夫決策過程具有值迭代的馬爾可夫決策過程動態規划有人可以用一個例子解釋部分可觀察的馬爾可夫決策過程（POMDP）嗎？部分可觀察的馬爾可夫決策過程最優值函數 Java中的馬爾可夫模型決策過程強化學習中行動限制的限制為什么環境狀態為markov？進一步了解馬爾可夫性質 OpenAI Gym action_space如何限制選擇馬爾可夫強化學習的擬合值迭代算法

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM