簡體 English 中英

強化學習批量數據使用

[英]Reinforcement Learning Batch Data Useage

原文 2023-01-24 18:30:24 2 1 machine-learning/ deep-learning/ artificial-intelligence/ reinforcement-learning

我正在實施深度 Q 學習算法。 我沒有完全理解的一件事是您從體驗隊列中獲取批次樣本並使用它來計算下一個狀態的 q 值的步驟。 這包括關於我正在訓練策略的 cnn 輸入形狀的次要問題。 我的問題是概念性的； 我是一次將整個采樣批次全部傳遞到 model 還是一次傳遞 1 個，然后計算損失？ 如果暗示我的 CNN 的整個批次在輸入層需要該批次大小並且當我實施該策略時，我將需要在調用推理 function 之前收集該數量的批次。

感謝您的任何見解。

1 個解決方案

關於抽樣的問題 -

從回放緩沖區中采樣的目的是訓練你的深度神經網絡。 DQN 是一種 off-policy 算法。 因此，即使您（通常）遵循 epsilon 貪婪策略，您的代理也可以從樣本經驗的小批量中學習更好的策略。 我們隨機對回放緩沖區進行采樣，以便您的數據遵循 iid 假設。

關於批量大小的問題 -

大多數 DL 框架的設置都是為了讓您的網絡可以接受不同的批處理大小作為輸入，或者有一個簡單的解決方法。

[英]Reinforcement Learning

分層強化學習的實現

[英]Implementations of Hierarchical Reinforcement Learning

強化學習玩具項目

[英]Reinforcement learning toy project

分類問題的強化學習？

[英]Reinforcement Learning for classification problems?

強化學習的良好實現？

[英]Good implementations of reinforcement learning?

並行深度強化學習

[英]parallelized deep reinforcement learning

（如何）我可以對已經看到的數據使用強化學習嗎？

[英](How) can I use reinforcement learning for already seen data?

SARSA在強化學習中

[英]SARSA in Reinforcement Learning

具有可變動作的強化學習

[英]Reinforcement Learning With Variable Actions

什么是強化機器學習？

[英]What is Reinforcement machine learning?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 強化學習分層強化學習的實現強化學習玩具項目分類問題的強化學習？強化學習的良好實現？並行深度強化學習（如何）我可以對已經看到的數據使用強化學習嗎？ SARSA在強化學習中具有可變動作的強化學習什么是強化機器學習？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM