簡體   English   中英

OpenAI Gym action_space如何限制選擇

[英]OpenAI gym action_space how to limit choices

假設動作空間是一個有5個門的游戲,並且您可以在每個步驟中選擇2個並且只能選擇2個。 如何將其表示為action_space?

self.action_space = spaces.Box( np.array([0,0,0,0,0]), np.array([+1,+1,+1,+1,+1]))  #

使用上述方法,action_space可以為none [0 0 0 0 0]或all [1 1 1 1 1]或介於兩者之間的任何值。 我試圖迫使行動只選擇2門。

正確操作的示例:

[1 1 0 0 0]
[1 0 1 0 0]
etc.

可能最簡單的解決方案是列出所有可能的動作,即所有允許的兩扇門的組合,並為每個門分配一個編號。 然后,環境必須將每個數字“解碼”為兩個門的相應組合。

這樣,代理應該簡單地在離散的動作空間( spaces.Discrete(n)進行選擇。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM