[英]Pre-Train a Model using imitation learning with Stable-baselines3
我一直在嘗試找出一種使用 Stable-baselines3 預訓練 model 的方法。
在 Stable-baseline(在 Tensorflow 1.X 上運行的版本)的原始文檔中,這似乎是一項簡單的任務:
from stable_baselines import PPO2
from stable_baselines.gail import ExpertDataset
dataset = ExpertDataset(expert_path='expert_cartpole.npz', traj_limitation=1, batch_size=128)
model = PPO2('MlpPolicy', 'CartPole-v1', verbose=1)
\# Pretrain the PPO2 model
model.pretrain(dataset, n_epochs=1000)
問題是,沒有“from stable_baselines 3 .gail import ExpertDataset”
基本上我想做的是我想使用特定算法創建一個 .npz 文件來生成觀察、獎勵、動作,然后將其傳遞給 RL 代理。
我從這個文檔中找到了原始代碼:
https://readthedocs.org/projects/stable-baselines/downloads/pdf/master/
我也面臨這個問題,想進行專家軌跡演示,但正如我所讀,stable-baselines3 中沒有“導入專家數據集”(仍在開發中,可能需要對 stable-baselines3 中的預訓練 model 進行大量更改)。 如果有針對此問題的更新或替代方案,請告訴我。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.