簡體 English 中英

收集數據集的強化學習訓練

[英]Reinforcement Learning Training on Collected dataset

原文 2022-07-19 17:13:19 5 2 deep-learning/ reinforcement-learning/ openai-gym

我是強化學習的新手，我使用 GYM 環境做了幾個例子。 但是，我知道並觀察到強化應該在真實環境中進行訓練，而不是在收集的數據（如監督學習）上進行訓練，我的問題是，這總是正確的嗎？ 我的意思是我有一個特定的數據集，它類似於推薦系統，我希望在我在真實環境中發布代理之前對代理進行培訓。這可能嗎？

2 個解決方案

我不知道您正在查看的上下文，但可以在實施 RL 代理之前對其進行訓練。 例如，在訓練賽車繞賽道行駛等常見示例中，代理會經過多次迭代訓練，然后保存。 此時，您可以說模型已經過訓練，但尚未“實施”。 然后可以在最終的正式運行中使用經過訓練的最終模型。

您可以采用類似的方法在模擬中訓練代理，然后將其實施到現實世界的系統中，具體取決於您的行業/環境可用的模擬器軟件的質量。

上一篇文章監督學習與離線（批量）強化學習也討論了在線和離線 RL 之間的差異。

如果您只收集了數據，但無法與環境交互，那么您就處於所謂的離線 RL場景中，這是一個活躍的研究領域。 它有自己的優點和缺點。 最天真的方法可能是使用行為克隆（因此您將數據集視為正常的監督學習問題並復制操作） - 問題是這假設數據已經來自良好的執行。 另一種方法是運行帶有非策略校正的 RL 算法，因為數據現在不是來自您的實際策略，因此策略梯度會出現偏差等。總體而言 - 離線 RL 是您的關鍵字。

進一步閱讀： https ://arxiv.org/abs/2203.01387

深度強化學習訓練准確性

[英]Deep Reinforcement Learning Training Accuracy

訓練深度神經網絡的強化學習

[英]Reinforcement learning for training deep neural network

深度學習與Caffe一起訓練數據集

[英]Deep learning Training dataset with Caffe

深度學習：是否在訓練中使用了驗證數據集？

[英]Deep Learning: Is validation dataset used in training?

深度學習訓練有差距的數據集

[英]Deep learning training the dataset which has gap

用Keras模型進行強化學習

[英]Reinforcement Learning with Keras model

為機器學習目的訓練網絡，將數據集分成幾部分

[英]Training a network for machine learning purpose, dividing the dataset in portions

如何為深度學習訓練數據集創建真實邊界框？

[英]How are ground truth bounding boxes created for a deep learning training dataset?

強化學習，為什么表現崩潰了？

[英]Reinforcement learning, why the performance collapsed?

深度強化學習 - CartPole 問題

[英]Deep Reinforcement Learning - CartPole Problem

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 深度強化學習訓練准確性訓練深度神經網絡的強化學習深度學習與Caffe一起訓練數據集深度學習：是否在訓練中使用了驗證數據集？深度學習訓練有差距的數據集用Keras模型進行強化學習為機器學習目的訓練網絡，將數據集分成幾部分如何為深度學習訓練數據集創建真實邊界框？強化學習，為什么表現崩潰了？深度強化學習 - CartPole 問題

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM