OpenAI Gym action_space如何限制選擇

Question

假設動作空間是一個有5個門的游戲，並且您可以在每個步驟中選擇2個並且只能選擇2個。 如何將其表示為action_space？

self.action_space = spaces.Box( np.array([0,0,0,0,0]), np.array([+1,+1,+1,+1,+1]))  #

使用上述方法，action_space可以為none [0 0 0 0 0]或all [1 1 1 1 1]或介於兩者之間的任何值。 我試圖迫使行動只選擇2門。

正確操作的示例：

[1 1 0 0 0]
[1 0 1 0 0]
etc.

Answer 1

可能最簡單的解決方案是列出所有可能的動作，即所有允許的兩扇門的組合，並為每個門分配一個編號。 然后，環境必須將每個數字“解碼”為兩個門的相應組合。

這樣，代理應該簡單地在離散的動作空間（ spaces.Discrete(n)進行選擇。