標簽[stable-baselines] - 堆棧內存溢出

[英]Get the current step number in a gym.Env

有沒有辦法從其step方法內部訪問gym.Env的當前步數？我正在使用來自 stable_baselines3 的stable_baselines3並希望在執行 N 步后終止環境。 ...

[英]Is it possible to use a stable-baselines model as the baseline for another model?

我最近訓練了一個穩定基線 PPO model 幾天，它在測試環境中表現良好。本質上，我正在嘗試迭代這個 model。我想知道是否可以使用這個 model 作為未來 model 訓練的新基線。因此，它可以使用這個 model 作為起點，並可能學習更好的解決環境問題的方法，而不是從針對我的環境的一 ...

使用帶有穩定基線的模仿學習預訓練 Model3

[英]Pre-Train a Model using imitation learning with Stable-baselines3

我一直在嘗試找出一種使用 Stable-baselines3 預訓練 model 的方法。在 Stable-baseline（在 Tensorflow 1.X 上運行的版本）的原始文檔中，這似乎是一項簡單的任務：問題是，沒有“from stable_baselines 3 .gail impo ...

Evaluate_policy 記錄的平均獎勵比穩定基線高得多 3 記錄器

[英]Evaluate_policy records much higher mean reward then stable baselines 3 logger

正如標題所說，我正在使用 SB3 在 Cartpole 環境中測試 PPO，但如果我看一下評估策略 function 的性能，我在 20000 個時間步長時獲得了 475 可靠的平均獎勵，但如果我看一下，我需要大約 90000 個時間步長控制台日志以在學習期間獲得可比較的結果。為什么我的 mode ...

是否可以將探索率設置為 0，並關閉穩定基線 3 算法的網絡訓練？

[英]Is it possible to set the exploration rate to 0, and turn off network training for a Stable Baselines 3 algorithm?

在訓練穩定的基線 3 RL 算法（我主要使用 PPO）后，我想將探索率設置為 0，並關閉網絡訓練，這樣當給定相同的輸入時，我總是從 model 得到相同的 output（動作）（觀察）。有可能這樣做嗎？如果不是，是否有理由說明為什么不應該這樣做？ ...

StableBaselines 創建 model 分段錯誤

[英]StableBaselines creating a model segmentation fault

嘗試在 CartPole-v1 OpenAI Gym 環境中創建 stable_baselines3 PPO model 時出現分段錯誤。到目前為止，我已經嘗試在 Python 3.10 和 Python 3.9 上運行一個簡短的示例代碼。我在 Conda 環境中運行 python 腳本。我所 ...

AssertionError：算法只支持<class 'gym.spaces.box.box'>作為動作空間，但提供了 Box(-1.0, 1.0, (3,), float32)</class>

[英]AssertionError: The algorithm only supports <class 'gym.spaces.box.Box'> as action spaces but Box(-1.0, 1.0, (3,), float32) was provided

所以基本上我嘗試將這個自定義健身房環境從https://github.com/Gor-Ren/gym-jsbsim轉換為使用 farama 基金會的體育館 api。這是我正在處理的 repo： https://github.com/ sryu1/jsbgym當我嘗試使用 gym-jsbsim 訓練 ...

如何為我使用 Gym.Scpaces.Box 創建的自定義 Gym 環境正確定義此觀察空間？

[英]How to correctly define this Observation Space for the custom Gym environment I am creating using Gym.Scpaces.Box?

我正在嘗試實現Paper的 DDPG 算法。在下圖中，gk[n] 和 rk[n] 是 KxM 實數值矩陣。 Theta[n] 和 v[n] 是大小為 M 的 arrays。我想編寫正確的代碼來在我的自定義環境中指定狀態/觀察空間。由於需要統一輸入到neural.network的數據類型，所 ...

對環境建模以強制代理從 n 個選項中選擇“x”的最佳方法是什么？

[英]What is the best way to model an environment to force an agent to select `x out of n` choices?

我有一個 RL 問題，我希望代理從大小為 n 的數組中選擇 x。即如果我有[0, 1, 2, 3, 4, 5]那么n = 6並且如果x = 3一個有效的動作可能是 [2, 3, 5] 。現在我嘗試的是有n分數：輸出n連續數字，並選擇x最高的。這工作得很好。我嘗試從多離散操作中迭代替換重復項 ...

有沒有辦法讀取/打印穩定基線中神經網絡隱藏層的激活？

[英]Is there a way to read/print the activations of the hidden layers of a Neural Network in Stable Baselines?

我正在從事的項目的核心要求是能夠讀取我使用穩定基線庫訓練的 PPO2 模型隱藏層中神經元的激活。這是一個非常相關的問題。我想按此處所示打印它們。我最接近的是這樣做：這僅打印權重和偏差，但不打印預測時的激活。我試圖編輯穩定基線庫的文件但無濟於事。我也試過這將返回 <class ' ...

如何在多集中訓練 RL 智能體

[英]How to train a RL agent in multiple episodes

我如何創建一個 RL 代理，它必須在 ex 1000 個不同的片段上執行，每個片段有 200 個時間步長？使用 gym-anytrading 和 stable-baselines3 ...

在隨機化的網格世界中從 stable_baselines3 訓練 PPO

[英]Training PPO from stable_baselines3 on a grid world that randomizes

我是 RL 的新手，我希望從 yol 那里得到一些建議：我創建了一個自定義環境，它是一個 10x10 網格世界，可以在其中隨機放置代理及其目標目的地（以及一些障礙物，即：火）。訓練 model 的環境的 state 只是代表不同 position 的 Box numpy 數組（0 代表空白，1 ...

使用 Wandb Sweep 對自定義參數進行超參數調整

[英]Hyperparameter Tuning with Wandb Sweep for custom parameters

我正在嘗試使用適用於 .network 架構的 Stable-Baseline-3 庫來調整超參數。我的配置文件是：但是如果我嘗試添加參數：我收到以下錯誤：是否可以將 wandb sweep 與 Stable-Baseline-3 一起用於 .network 架構？ ...

我如何 go 關於 Open AI Gym 和 stable_baselines3 中的這個錯誤？

[英]How do I go about this error in Open AI Gym and stable_baselines3?

我正在 Python 學習強化學習，參考 senddex 的 Stable Baselines 3 教程。當我使用check_env()運行檢查代碼時出現的問題是出現錯誤AssertionError: The observation returned by the reset() method ...

穩定基線 3 的字典觀察空間不起作用

[英]Dict Observation Space for Stable Baselines3 Not Working

我在下面創建了一個最小的可重現示例，它可以輕松地在新的 Google Colab 筆記本中運行。第一次安裝完成后，只需Runtime > Restart and Run All即可生效。我在下面制作了一個簡單的輪盤游戲環境進行測試。對於觀察空間，我創建了一個gym.spaces.Dict ...

stable-baselines3 PPO model 加載但不工作

[英]stable-baselines3 PPO model loaded but not working

我正在嘗試制作一個 AI 代理來玩 OpenAI Gym CarRacing 環境，但我在加載保存的模型時遇到了問題。我訓練它們，它們工作，我保存它們並加載它們，突然間汽車甚至不動了。我什至嘗試從其他人那里下載模型，但加載后，汽車就是不動。我在使用 gym==0.21.0, stable-ba ...

穩定的基線3 創建 SB3-{date} 文件夾

[英]Stable baselines3 creates SB3-{date} folders

我目前正在使用穩定的baselines3 A2C。不知何故，model.learn() 不斷為每一集制作名稱為 SB3-{當前日期和時間}的文件夾。我怎樣才能解決這個問題？ ...

使用 Jupyter 的 ModuleNotFoundError

[英]ModuleNotFoundError using Jupyter

我正在關注 Jupyter 的教程，但我遇到了一些錯誤。代碼在https://github.com/nicknochnack/Reinforcement-Learning-for-Trading-Custom-Signals/blob/main/Custom%20Signals.ipynb 在某 ...

OpenAI 健身房賽車

[英]OpenAI Gym CarRacing

我想使用 stable-baselines3 PPO 創建一個強化學習 model，它可以驅動 OpenAI Gym Car 賽車環境，我遇到了很多錯誤和 package 兼容性問題。我目前有這段代碼只是為了隨機操作在 Ubuntu 20.04 上運行，在 VSCode Jupyter 筆記本中 ...

如何在使用穩定基線3（PPO 實施）時更改 n_steps？

[英]How can I change n_steps while using stable baselines3 (PPO implementation)?

我正在為我的自定義環境從穩定的基線 3 實施 PPO。現在 n_steps = 2048，所以 model 更新發生在 2048 個時間步之后。我該如何改變這個，我希望我的 model 在 n_steps = 1000 之后更新？ ...