簡體   English   中英

強化學習中政策梯度下降的獎勵功能

[英]Reward function for Policy Gradient Descent in Reinforcement Learning

我目前正在強化學習的背景下學習有關“政策梯度下降”的知識。 TL; DR,我的問題是: “在下面的情況下,對獎勵函數的約束什么(在理論和實踐上),什么是好的獎勵函數?”

詳細信息:我想實現一個神經網絡,該網絡應該學會使用Policy Gradient Descent玩簡單的棋盤游戲。 我將忽略NN的細節,因為它們無關緊要。 據我了解,Policy Gradient Descent的損失函數為對數似然可能性: loss = - avg(r * log(p))

我現在的問題是如何定義獎勵r 由於游戲可以具有3種不同的結果:獲勝,失敗或平局-似乎為獲勝獎勵1,為平局獎勵0,為損失獎勵-1(以及那些導致這些結果的行動的折現值)一個自然的選擇。

但是,從數學上我有疑問:

贏賞:1-這似乎很有意義。 概率越接近1,則梯度逐漸減小的獲勝移動中的概率就應該將其推向1。

開獎獎勵:0-這似乎沒有道理。 這只會抵消方程中的任何概率,並且不可能進行學習(因為梯度應始終為0)。

損失獎勵:-1-這應該是一種工作。 對於涉及損失的移動,它應將概率推向0。 但是,與獲勝案例相比,我擔心坡度的不對稱性。 概率越接近0,則梯度越陡。 我擔心這將對避免損失的政策產生極大的偏見-致使獲勝信號無關緊要。

您走在正確的軌道上。 但是,我相信您正在將獎勵與行動概率相混淆。 在平局的情況下,它得知情節結束時獎勵本身為零。 但是,在發生損失的情況下,損失函數是折現獎勵(應為-1)乘以行動概率。 因此,它將使您更多地朝着以勝利告終而遠離損失,以平局告終的行動落在中間的行動。 直觀地講,它與監督式深度學習非常相似,只是附加了一個加權參數(獎勵)。

此外,我相信Google DeepMind的這篇論文對您會有所幫助: https : //arxiv.org/abs/1712.01815 他們實際上在談論使用RL解決國際象棋問題。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM