簡體   English   中英

在張量流中使用負損失

[英]use negative loss in tensorflow

我正在實現一個基於類采取行動的增強代理。 因此它可以執行操作1或2或3或4。

所以我的問題是我可以在張量流中使用負損失來阻止它輸出動作。

示例:假設代理輸出動作1,我想強烈勸阻它不要在那種情況下再次執行動作1。 但是沒有應該采取的已知措施。 因此,我不能只是選擇其他動作來使其了解這一點。

所以我的問題是:tensorflow梯度計算是否處理負值損失。 如果可以,它將按照我的描述工作嗎?

梯度下降最小化器通常將嘗試找到最小損耗,而與損耗表面的符號無關。 聽起來您要么想要a)分配大筆虧損以鼓勵模型選擇其他東西,要么b)分配第五個不采取行動的類別。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM