簡體   English   中英

Q-learning中的學習曲線

[英]Learning Curve in Q-learning

我的問題是我在 c++ 中使用 epsilon 貪心策略編寫了 Q 學習算法,現在我必須 plot 的 Q 值的學習曲線。 我應該對 plot 究竟有什么,因為我有一個 11x5 Q 矩陣,所以我應該取一個 Q 值和 plot 它的學習還是我必須取整個矩陣作為學習曲線,你能指導我嗎? 謝謝

RL 中的學習曲線通常是隨時間變化的回報圖,而不是 Q 損失或類似的東西。 所以你應該運行你的環境,計算總獎勵(又名回報)和 plot 它在相應的時間。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM