簡體   English   中英

強化學習批量數據使用

[英]Reinforcement Learning Batch Data Useage

我正在實施深度 Q 學習算法。 我沒有完全理解的一件事是您從體驗隊列中獲取批次樣本並使用它來計算下一個狀態的 q 值的步驟。 這包括關於我正在訓練策略的 cnn 輸入形狀的次要問題。 我的問題是概念性的; 我是一次將整個采樣批次全部傳遞到 model 還是一次傳遞 1 個,然后計算損失? 如果暗示我的 CNN 的整個批次在輸入層需要該批次大小並且當我實施該策略時,我將需要在調用推理 function 之前收集該數量的批次。

感謝您的任何見解。

關於抽樣的問題 -

從回放緩沖區中采樣的目的是訓練你的深度神經網絡。 DQN 是一種 off-policy 算法。 因此,即使您(通常)遵循 epsilon 貪婪策略,您的代理也可以從樣本經驗的小批量中學習更好的策略。 我們隨機對回放緩沖區進行采樣,以便您的數據遵循 iid 假設。

關於批量大小的問題 -

大多數 DL 框架的設置都是為了讓您的網絡可以接受不同的批處理大小作為輸入,或者有一個簡單的解決方法

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM