簡體   English   中英

如何解釋 TensorBoard 中的“價值損失”圖表?

[英]How to interpret "Value Loss" chart in TensorBoard?

我在 Unity Machine Learning Agents 中有一個目標尋找、避障直升機。 看着 TensorBoard 進行我的訓練,我試圖了解如何解釋“損失/價值損失”。

在此處輸入圖片說明

我在谷歌上搜索了很多關於 ML Loss 的文章,就像這篇文章一樣,但我似乎無法直觀地了解這對我的小直升機意味着什么以及我應該實施的可能更改(如果有的話)。 (直升機通過不斷接近目標獲得獎勵,通過進一步或碰撞受到懲罰。它測量相對速度,相對目標位置,射線傳感器等多種東西,基本上在目標中起作用-finding,而更復雜的迷宮類型障礙尚未經過測試或訓練。它使用 3 層。)謝謝!

在強化學習中,特別是關於演員/評論家算法,價值損失是學習算法對狀態值期望與該狀態的經驗觀察值之間的差異(或許多此類差異的平均值)。

一個國家的價值是什么? 簡而言之,一個狀態的價值是,如果您從該狀態開始,您可以期望獲得多少獎勵。 立即獎勵完全有助於此金額。 可能發生但不會立即發生的獎勵貢獻較少,更遠的事件貢獻越來越少。 我們將這種對價值貢獻的減少稱為“折扣”,或者說這些獎勵是“折扣”。

期望值是算法的評論家部分預測值的大小。 在將評論家實現為神經網絡的情況下,它是以狀態作為輸入的神經網絡的輸出。

經驗觀察值是當您將離開該狀態時實際獲得的獎勵加起來時獲得的數量,加上在此之后的某些步驟中立即獲得的任何獎勵(按一定數量折扣)(我們會在這些步驟之后說)您最終在狀態 X 上完成的步驟),以及(也許,取決於實現)加上一些基於狀態 X 值的折扣金額。

簡而言之,它越小,就越能更好地預測它的表現。 這並不意味着它會變得更好玩——畢竟,一個人在游戲中可能會很糟糕,但如果他們學會選擇會讓他們很快輸掉的動作,那么他們可以准確地預測他們會輸,什么時候會輸!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM