使用帶有穩定基線的模仿學習預訓練 Model3

Question

我一直在嘗試找出一種使用 Stable-baselines3 預訓練 model 的方法。

在 Stable-baseline（在 Tensorflow 1.X 上運行的版本）的原始文檔中，這似乎是一項簡單的任務：

from stable_baselines import PPO2

from stable_baselines.gail import ExpertDataset

dataset = ExpertDataset(expert_path='expert_cartpole.npz', traj_limitation=1, batch_size=128)

model = PPO2('MlpPolicy', 'CartPole-v1', verbose=1)

\# Pretrain the PPO2 model

model.pretrain(dataset, n_epochs=1000)

問題是，沒有“from stable_baselines 3 .gail import ExpertDataset”

基本上我想做的是我想使用特定算法創建一個 .npz 文件來生成觀察、獎勵、動作，然后將其傳遞給 RL 代理。

我從這個文檔中找到了原始代碼：

https://readthedocs.org/projects/stable-baselines/downloads/pdf/master/

Answer 1

我也面臨這個問題，想進行專家軌跡演示，但正如我所讀，stable-baselines3 中沒有“導入專家數據集”（仍在開發中，可能需要對 stable-baselines3 中的預訓練 model 進行大量更改）。 如果有針對此問題的更新或替代方案，請告訴我。

使用帶有穩定基線的模仿學習預訓練 Model3

問題描述

1 個解決方案

解決方案1
0 2023-02-02 08:33:52

使用帶有穩定基線的模仿學習預訓練 Model3

問題描述

1 個解決方案

解決方案1 0 2023-02-02 08:33:52

解決方案1
0 2023-02-02 08:33:52