標簽[reinforcement-learning] - 堆棧內存溢出

[英]How to train a Deep Reinforcement Learning Network?

這是一個概念性的問題。我來自計算機視覺背景，其中 Object 檢測 DNN 使用預定義的數據集（例如 COCO、NYU-D 等）進行訓練，然后 DNN 能夠根據訓練預測輸入圖像的結果。但是，在深度強化學習的情況下，我無法找到可以訓練深度 RL.networks 的數據集。相反，我找到了談論 ...

在 CartPole 上使用 gymnasium play 使購物車 go 一直離開

[英]Using gymnasium play on CartPole makes the cart go left all the time

我正在嘗試使用我的鍵盤在 Jupyter Notebook 上玩 CartPole。我正在使用 Farama 文檔中的以下代碼但是，盡管按下了d ，但購物車仍繼續向左行駛。我該如何解決這個問題？ ...

OpenAI Gymnasium，是否有支持算法的庫？

[英]OpenAI Gymnasium, are there any libraries with algorithms supporting it?

OpenAI 發布了一個名為 Gymnasium 的新庫，該庫將取代 Gym 庫。有許多庫具有支持健身房環境的 RL 算法實現，但是界面隨着 Gymnasium 發生了一些變化。是否有支持 Gymnasium 算法的庫？我嘗試了 CleanRL、KerasRL、RLib 和其他一些，但它們 ...

如何將 output 數組作為深度強化學習 Model 中的操作？

[英]How to output an array as actions in a Deep Reinforcement Learning Model?

我目前正在開發自定義多代理 DQN 環境，我的 action_space 是一個列表，例如 [2,4,3,2,1]。其中 actionlist[0] 是第一個代理采取的行動，actionlist[1] 是第二個代理采取的行動，依此類推。通常對於單個值 output，代碼將如下所示：但是，這不 ...

是否可以使用穩定基線 model 作為另一個 model 的基線？

[英]Is it possible to use a stable-baselines model as the baseline for another model?

我最近訓練了一個穩定基線 PPO model 幾天，它在測試環境中表現良好。本質上，我正在嘗試迭代這個 model。我想知道是否可以使用這個 model 作為未來 model 訓練的新基線。因此，它可以使用這個 model 作為起點，並可能學習更好的解決環境問題的方法，而不是從針對我的環境的一 ...

不同邊界的觀察。 `reset()` 方法返回的觀察與給定的觀察空間不匹配

[英]Observation with different boundaries. The observation returned by the `reset()` method does not match the given observation space

我是強化學習的初學者，所以不要苛刻地評判我。 error: AssertionError: reset()方法返回的觀察與給定的觀察空間不匹配觀察空間：返回觀察：我試圖將所有內容都放在一個數組中（它起作用了），但這是錯誤的，因為不同的數據組需要不同的邊界。最有可能的是，錯誤的格式不對，如果根 ...

使用帶有穩定基線的模仿學習預訓練 Model3

[英]Pre-Train a Model using imitation learning with Stable-baselines3

我一直在嘗試找出一種使用 Stable-baselines3 預訓練 model 的方法。在 Stable-baseline（在 Tensorflow 1.X 上運行的版本）的原始文檔中，這似乎是一項簡單的任務：問題是，沒有“from stable_baselines 3 .gail impo ...

強化學習批量數據使用

[英]Reinforcement Learning Batch Data Useage

我正在實施深度 Q 學習算法。我沒有完全理解的一件事是您從體驗隊列中獲取批次樣本並使用它來計算下一個狀態的 q 值的步驟。這包括關於我正在訓練策略的 cnn 輸入形狀的次要問題。我的問題是概念性的；我是一次將整個采樣批次全部傳遞到 model 還是一次傳遞 1 個，然后計算損失？如果暗示我 ...

PyTorch 分類性能緩慢

[英]Slow performance of PyTorch Categorical

我一直在使用 PPO（近端策略優化）架構在自定義模擬器中訓練我的代理。我的模擬器已經變得非常快，因為它寫在 Rust 中。因此，我的內部循環的速度受到 PPO 代理內部的某些功能的瓶頸。當我使用 pyinstrument 分析 function 時，它表明大部分時間都花在初始化分類 class ...

我可以對具有非連續觀察空間的問題使用強化學習嗎？

[英]Can I use Reinforcment Learning for a problem that has a non continous observation space?

我想訓練一個代理人在一個 9x9 的字段上放置一個 polyomino（只有一個，例如 2x2 的平方），該字段要么是空的，要么已經包含多個 OTHER（不是 2x2 平方）polyomino。所以觀察空間不會是連續的。這是 RL 的正確用例嗎？ ...

Evaluate_policy 記錄的平均獎勵比穩定基線高得多 3 記錄器

[英]Evaluate_policy records much higher mean reward then stable baselines 3 logger

正如標題所說，我正在使用 SB3 在 Cartpole 環境中測試 PPO，但如果我看一下評估策略 function 的性能，我在 20000 個時間步長時獲得了 475 可靠的平均獎勵，但如果我看一下，我需要大約 90000 個時間步長控制台日志以在學習期間獲得可比較的結果。為什么我的 mode ...

在使用 Ray 和 Open Spiel 環境時是否有適當的動作掩蔽？

[英]Is there anyway to do proper action masking while using Ray and an Open Spiel environment?

每當我與 Ray 一起運行 Open Spiel 環境時，我總是會遇到大量關於移動不合法的錯誤。我想知道是否有任何方法可以在 Open Spiel 環境中應用動作掩碼。我運行了 ray 附帶的示例： https://github.com/ray-project/ray/blob/master/ ...

讓 DQN 學習 CartPole-v1 (PyTorch) 的問題

[英]Problem getting DQN to learn CartPole-v1 (PyTorch)

所以我的 DQN 訓練很好，在 ~65_000 次迭代后解決了環境問題。但是，我開始研究其他東西，現在它完全壞了，再也無法接近同一水平了。根據之前工作的建議，我調整了超參數，但仍然沒有看到相同的結果。import gym import numpy as np import torch from ...

是否可以將探索率設置為 0，並關閉穩定基線 3 算法的網絡訓練？

[英]Is it possible to set the exploration rate to 0, and turn off network training for a Stable Baselines 3 algorithm?

在訓練穩定的基線 3 RL 算法（我主要使用 PPO）后，我想將探索率設置為 0，並關閉網絡訓練，這樣當給定相同的輸入時，我總是從 model 得到相同的 output（動作）（觀察）。有可能這樣做嗎？如果不是，是否有理由說明為什么不應該這樣做？ ...

如何在不破壞梯度計算的情況下記錄 Pytorch 中的變量？

[英]How to Record Variables in Pytorch Without Breaking Gradient Computation?

我正在嘗試實施一些類似於此的策略梯度訓練。但是，我想在進行反向傳播之前操縱獎勵（如折扣未來總和和其他可微分操作）。考慮定義為計算對 go 的獎勵的manipulate function ：我試圖將獎勵存儲在列表中：似乎就地操作破壞了梯度計算，代碼給了我一個錯誤： one of the va ...

如何從 Rllib 的 PPO 算法中獲取一系列觀察值的價值函數/評論值？

[英]How do I get value function/critic values from Rllib's PPO algorithm for a range of observations?

目標：我想針對某個問題訓練 PPO 代理，並針對一系列觀察確定其最優值 function。稍后我計划使用這個值 function（經濟不平等研究）。該問題非常復雜，以至於動態規划技術不再適用。方法：為了檢查我是否得到值 function 的正確輸出，我在一個簡單問題上訓練了 PPO，其解析解 ...

AssertionError：算法只支持<class 'gym.spaces.box.box'>作為動作空間，但提供了 Box(-1.0, 1.0, (3,), float32)</class>

[英]AssertionError: The algorithm only supports <class 'gym.spaces.box.Box'> as action spaces but Box(-1.0, 1.0, (3,), float32) was provided

所以基本上我嘗試將這個自定義健身房環境從https://github.com/Gor-Ren/gym-jsbsim轉換為使用 farama 基金會的體育館 api。這是我正在處理的 repo： https://github.com/ sryu1/jsbgym當我嘗試使用 gym-jsbsim 訓練 ...

如何為我使用 Gym.Scpaces.Box 創建的自定義 Gym 環境正確定義此觀察空間？

[英]How to correctly define this Observation Space for the custom Gym environment I am creating using Gym.Scpaces.Box?

我正在嘗試實現Paper的 DDPG 算法。在下圖中，gk[n] 和 rk[n] 是 KxM 實數值矩陣。 Theta[n] 和 v[n] 是大小為 M 的 arrays。我想編寫正確的代碼來在我的自定義環境中指定狀態/觀察空間。由於需要統一輸入到neural.network的數據類型，所 ...

什么時候應該重置蒙托卡羅樹搜索？

[英]When should a monto carlo tree search be reset?

我正在嘗試構建/理解蒙特卡洛樹搜索算法 (mcts) 如何與神經網絡結合使用以學習如何玩游戲（如國際象棋）。但是我無法理解何時重置樹。我以https://github.com/suragnair/alpha-zero-general為例。但是對我來說，關於這個實現的一件事是它在每個單獨的游戲 ...

我在將觀察空間添加到自定義 Gym 環境時遇到問題

[英]Im having problems adding observation space to a custom Gym enviroment

嗨，有人能幫忙嗎，一個困惑而樂觀的業余愛好程序員我正在使用這段代碼我已經修改它以與汽車一起工作（0 左，1 海峽，2 右）我想添加一些觀察，例如目的地（XY），汽車位置（XY）軸承（角度），distance_to_destination和 bearing_of_detination。希望汽車能找到 ...