簡體   English   中英

使用帶有穩定基線的模仿學習預訓練 Model3

[英]Pre-Train a Model using imitation learning with Stable-baselines3

我一直在嘗試找出一種使用 Stable-baselines3 預訓練 model 的方法。

在 Stable-baseline(在 Tensorflow 1.X 上運行的版本)的原始文檔中,這似乎是一項簡單的任務:

from stable_baselines import PPO2

from stable_baselines.gail import ExpertDataset

dataset = ExpertDataset(expert_path='expert_cartpole.npz', traj_limitation=1, batch_size=128)

model = PPO2('MlpPolicy', 'CartPole-v1', verbose=1)

\# Pretrain the PPO2 model

model.pretrain(dataset, n_epochs=1000)

問題是,沒有“from stable_baselines 3 .gail import ExpertDataset”

基本上我想做的是我想使用特定算法創建一個 .npz 文件來生成觀察、獎勵、動作,然后將其傳遞給 RL 代理。

我從這個文檔中找到了原始代碼:

https://readthedocs.org/projects/stable-baselines/downloads/pdf/master/

我也面臨這個問題,想進行專家軌跡演示,但正如我所讀,stable-baselines3 中沒有“導入專家數據集”(仍在開發中,可能需要對 stable-baselines3 中的預訓練 model 進行大量更改)。 如果有針對此問題的更新或替代方案,請告訴我。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM