簡體   English   中英

馬爾可夫決策過程中的建模動作使用限制

[英]Modelling action use limit in Markov Decision Process

我有一個包含一定數量的狀態和動作的馬爾可夫決策過程。 我想在我的 model 中加入一個只能在任何狀態下使用一次的動作,並且使用后不能再次使用。 我如何在我的 state 圖中執行 model 這個動作? 我想有一個單獨的 state 並使用 -inf 作為獎勵,但這些似乎都沒有用。 謝謝!

為了滿足 Markov 屬性,您必須在每個 state 中包含之前是否使用過此操作的信息,沒有其他方法可以解決。 這將使您的 state 空間更大,但隨后您的 state 圖將按您預期的那樣運行。

假設您有三個狀態:S = {1,2,3} 和兩個動作 A={1,2},其中每個動作只能在每個 state 中使用一次。那么您現在將擁有狀態 S = {( 1,p1,p2), (2,p1,p2), (3,p1,p2)},其中 p1 是一個 boolean 動作 1 之前是否已經在這個 state 中使用過,p2 是一個 boolean 表示動作 2 是否已經以前在這個 state 中使用過。這意味着你現在總共有 12 個狀態:S={(1,0,0), (1,1,0), (1,0,1), (1,1 ,1), (2,0,0), (2,1,0), (2,0,1), (2,1,1), (3,0,0), (3,1,0 ), (3,0,1), (3,1,1)}

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM