簡體   English   中英

可以在張量流中訓練深度強化學習中的時間步長T嗎?

[英]Can the timesteps T in deep reinforcement learning be trained in tensorflow?

最近我正在嘗試實施一個需要可變時間步長的深度強化學習項目。我想訓練網絡以輸出參數T,並將T用作策略梯度方法或DQN方法的長度或時間步長,我想知道這是否是可行的? 我的意思是,當我們進行反向傳播時,可以通過時間步長T向后傳播嗎?

除非您像“ 自適應計算時間 ”中那樣進行一些“平滑”操作,否則不會這樣。 僅供參考,ACT可能很難使用和培訓。 我目睹了幾個項目對此進行了嘗試。 與調整的步驟數相比,它沒有提供太大的好處。 關於ACT(以及可能的其他類似方法)的一件重要事情是,它平均RNN狀態是不同的時間步長,這實質上意味着它假設網絡學習了“線性表示”。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM