簡體 English 中英

對環境建模以強制代理從 n 個選項中選擇“x”的最佳方法是什么？

[英]What is the best way to model an environment to force an agent to select `x out of n` choices?

原文 2022-12-20 13:49:48 1 1 reinforcement-learning/ openai-gym/ stable-baselines/ keras-rl

我有一個 RL 問題，我希望代理從大小為 n 的數組中選擇 x。

即如果我有[0, 1, 2, 3, 4, 5]那么n = 6並且如果x = 3一個有效的動作可能是

[2, 3, 5] 。

現在我嘗試的是有n分數：輸出n連續數字，並選擇x最高的。 這工作得很好。

我嘗試從多離散操作中迭代替換重復項。 我們的x值可以是0 to n-1之間的任何值。

是否還有其他一些我缺少的最佳行動空間會迫使代理人做出獨特的選擇？

非常感謝您提前提供寶貴的見解和提示！ 我很樂意嘗試所有！

1 個解決方案

由於強化學習主要是關於與環境的交互，您可以這樣處理：

您的代理開始選擇操作。 選擇第一個動作后，您可以通過刪除最后一個選擇（使用臨時動作列表）來更新它可能的選擇，或者您可以更新所選動作的值（給它負獎勵或懲罰它）。 我認為這可以解決您的問題。

解決這種 DQN 代理的最佳方法是什么？

[英]What is the best approach to tackle this kind of DQN Agent?

將 Q 表保存到文件的最佳方法是什么？

[英]What is the best way to save Q table to file?

在多智能體環境中降低一個智能體的動作采樣頻率

[英]Decreasing action sampling frequency for one agent in a multi-agent environment

用於多代理游戲的 Openai 健身房環境

[英]Openai gym environment for multi-agent games

如何在openai體育館環境中修改代理？

[英]How to modify the agent in an openai gym environment?

我可以使用 DQN 和樣本在不與環境交互的情況下訓練代理嗎？

[英]Can I train an agent without interactions with environment using DQN and samples?

自定義環境 Gym，用於使用 DDPG Agent 進行步進功能處理

[英]Custom environment Gym for step function processing with DDPG Agent

多智能體強化學習環境公共交通問題

[英]Multi-agent reinforcement learning environment Public transport problem

Keras 模型：RL 代理的輸入形狀尺寸錯誤

[英]Keras model: Input shape dimension error for RL agent

為什么我的DQN代理無法在非確定性環境中找到最優策略？

[英]Why can't my DQN agent find the optimal policy in a non-deterministic environment?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 解決這種 DQN 代理的最佳方法是什么？將 Q 表保存到文件的最佳方法是什么？在多智能體環境中降低一個智能體的動作采樣頻率用於多代理游戲的 Openai 健身房環境如何在openai體育館環境中修改代理？我可以使用 DQN 和樣本在不與環境交互的情況下訓練代理嗎？自定義環境 Gym，用於使用 DDPG Agent 進行步進功能處理多智能體強化學習環境公共交通問題 Keras 模型：RL 代理的輸入形狀尺寸錯誤為什么我的DQN代理無法在非確定性環境中找到最優策略？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM