簡體   English   中英

收集數據集的強化學習訓練

[英]Reinforcement Learning Training on Collected dataset

我是強化學習的新手,我使用 GYM 環境做了幾個例子。 但是,我知道並觀察到強化應該在真實環境中進行訓練,而不是在收集的數據(如監督學習)上進行訓練,我的問題是,這總是正確的嗎? 我的意思是我有一個特定的數據集,它類似於推薦系統,我希望在我在真實環境中發布代理之前對代理進行培訓。這可能嗎?

我不知道您正在查看的上下文,但可以在實施 RL 代理之前對其進行訓練。 例如,在訓練賽車繞賽道行駛等常見示例中,代理會經過多次迭代訓練,然后保存。 此時,您可以說模型已經過訓練,但尚未“實施”。 然后可以在最終的正式運行中使用經過訓練的最終模型。

您可以采用類似的方法在模擬中訓練代理,然后將其實施到現實世界的系統中,具體取決於您的行業/環境可用的模擬器軟件的質量。

上一篇文章監督學習與離線(批量)強化學習也討論了在線和離線 RL 之間的差異。

如果您只收集了數據,但無法與環境交互,那么您就處於所謂的離線 RL場景中,這是一個活躍的研究領域。 它有自己的優點和缺點。 最天真的方法可能是使用行為克隆(因此您將數據集視為正常的監督學習問題並復制操作) - 問題是這假設數據已經來自良好的執行。 另一種方法是運行帶有非策略校正的 RL 算法,因為數據現在不是來自您的實際策略,因此策略梯度會出現偏差等。總體而言 - 離線 RL 是您的關鍵字。

進一步閱讀: https ://arxiv.org/abs/2203.01387

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM