cost 71 ms
獲取 gym.Env 中的當前步數

[英]Get the current step number in a gym.Env

有沒有辦法從其step方法內部訪問gym.Env的當前步數? 我正在使用來自 stable_baselines3 的stable_baselines3並希望在執行 N 步后終止環境。 ...

是否可以使用穩定基線 model 作為另一個 model 的基線?

[英]Is it possible to use a stable-baselines model as the baseline for another model?

我最近訓練了一個穩定基線 PPO model 幾天,它在測試環境中表現良好。 本質上,我正在嘗試迭代這個 model。我想知道是否可以使用這個 model 作為未來 model 訓練的新基線。 因此,它可以使用這個 model 作為起點,並可能學習更好的解決環境問題的方法,而不是從針對我的環境的一 ...

使用帶有穩定基線的模仿學習預訓練 Model3

[英]Pre-Train a Model using imitation learning with Stable-baselines3

我一直在嘗試找出一種使用 Stable-baselines3 預訓練 model 的方法。 在 Stable-baseline(在 Tensorflow 1.X 上運行的版本)的原始文檔中,這似乎是一項簡單的任務: 問題是,沒有“from stable_baselines 3 .gail impo ...

Evaluate_policy 記錄的平均獎勵比穩定基線高得多 3 記錄器

[英]Evaluate_policy records much higher mean reward then stable baselines 3 logger

正如標題所說,我正在使用 SB3 在 Cartpole 環境中測試 PPO,但如果我看一下評估策略 function 的性能,我在 20000 個時間步長時獲得了 475 可靠的平均獎勵,但如果我看一下,我需要大約 90000 個時間步長控制台日志以在學習期間獲得可比較的結果。 為什么我的 mode ...

是否可以將探索率設置為 0,並關閉穩定基線 3 算法的網絡訓練?

[英]Is it possible to set the exploration rate to 0, and turn off network training for a Stable Baselines 3 algorithm?

在訓練穩定的基線 3 RL 算法(我主要使用 PPO)后,我想將探索率設置為 0,並關閉網絡訓練,這樣當給定相同的輸入時,我總是從 model 得到相同的 output(動作)(觀察)。 有可能這樣做嗎? 如果不是,是否有理由說明為什么不應該這樣做? ...

AssertionError:算法只支持<class 'gym.spaces.box.box'>作為動作空間,但提供了 Box(-1.0, 1.0, (3,), float32)</class>

[英]AssertionError: The algorithm only supports <class 'gym.spaces.box.Box'> as action spaces but Box(-1.0, 1.0, (3,), float32) was provided

所以基本上我嘗試將這個自定義健身房環境從https://github.com/Gor-Ren/gym-jsbsim轉換為使用 farama 基金會的體育館 api。這是我正在處理的 repo: https://github.com/ sryu1/jsbgym當我嘗試使用 gym-jsbsim 訓練 ...

如何為我使用 Gym.Scpaces.Box 創建的自定義 Gym 環境正確定義此觀察空間?

[英]How to correctly define this Observation Space for the custom Gym environment I am creating using Gym.Scpaces.Box?

我正在嘗試實現Paper的 DDPG 算法。 在下圖中,gk[n] 和 rk[n] 是 KxM 實數值矩陣。 Theta[n] 和 v[n] 是大小為 M 的 arrays。 我想編寫正確的代碼來在我的自定義環境中指定狀態/觀察空間。 由於需要統一輸入到neural.network的數據類型,所 ...

對環境建模以強制代理從 n 個選項中選擇“x”的最佳方法是什么?

[英]What is the best way to model an environment to force an agent to select `x out of n` choices?

我有一個 RL 問題,我希望代理從大小為 n 的數組中選擇 x。 即如果我有[0, 1, 2, 3, 4, 5]那么n = 6並且如果x = 3一個有效的動作可能是 [2, 3, 5] 。 現在我嘗試的是有n分數:輸出n連續數字,並選擇x最高的。 這工作得很好。 我嘗試從多離散操作中迭代替換重復項 ...

有沒有辦法讀取/打印穩定基線中神經網絡隱藏層的激活?

[英]Is there a way to read/print the activations of the hidden layers of a Neural Network in Stable Baselines?

我正在從事的項目的核心要求是能夠讀取我使用穩定基線庫訓練的 PPO2 模型隱藏層中神經元的激活。 這是一個非常相關的問題。 我想按此處所示打印它們。 我最接近的是這樣做: 這僅打印權重和偏差,但不打印預測時的激活。 我試圖編輯穩定基線庫的文件但無濟於事。 我也試過 這將返回 &lt;class ' ...

在隨機化的網格世界中從 stable_baselines3 訓練 PPO

[英]Training PPO from stable_baselines3 on a grid world that randomizes

我是 RL 的新手,我希望從 yol 那里得到一些建議: 我創建了一個自定義環境,它是一個 10x10 網格世界,可以在其中隨機放置代理及其目標目的地(以及一些障礙物,即:火)。 訓練 model 的環境的 state 只是代表不同 position 的 Box numpy 數組(0 代表空白,1 ...

使用 Wandb Sweep 對自定義參數進行超參數調整

[英]Hyperparameter Tuning with Wandb Sweep for custom parameters

我正在嘗試使用適用於 .network 架構的 Stable-Baseline-3 庫來調整超參數。 我的配置文件是: 但是如果我嘗試添加參數: 我收到以下錯誤: 是否可以將 wandb sweep 與 Stable-Baseline-3 一起用於 .network 架構? ...

穩定基線 3 的字典觀察空間不起作用

[英]Dict Observation Space for Stable Baselines3 Not Working

我在下面創建了一個最小的可重現示例,它可以輕松地在新的 Google Colab 筆記本中運行。 第一次安裝完成后,只需Runtime &gt; Restart and Run All即可生效。 我在下面制作了一個簡單的輪盤游戲環境進行測試。 對於觀察空間,我創建了一個gym.spaces.Dict ...

stable-baselines3 PPO model 加載但不工作

[英]stable-baselines3 PPO model loaded but not working

我正在嘗試制作一個 AI 代理來玩 OpenAI Gym CarRacing 環境,但我在加載保存的模型時遇到了問題。 我訓練它們,它們工作,我保存它們並加載它們,突然間汽車甚至不動了。 我什至嘗試從其他人那里下載模型,但加載后,汽車就是不動。 我在使用 gym==0.21.0, stable-ba ...

穩定的基線3 創建 SB3-{date} 文件夾

[英]Stable baselines3 creates SB3-{date} folders

我目前正在使用穩定的baselines3 A2C。 不知何故,model.learn() 不斷為每一集制作名稱為 SB3-{當前日期和時間}的文件夾。 我怎樣才能解決這個問題? ...

OpenAI 健身房賽車

[英]OpenAI Gym CarRacing

我想使用 stable-baselines3 PPO 創建一個強化學習 model,它可以驅動 OpenAI Gym Car 賽車環境,我遇到了很多錯誤和 package 兼容性問題。 我目前有這段代碼只是為了隨機操作 在 Ubuntu 20.04 上運行,在 VSCode Jupyter 筆記本中 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM