簡體   English   中英

Tensorflow 損失已經很低

[英]Tensorflow loss is already low

我正在做一個帶有強化學習的 AI,我得到了奇怪的結果,損失顯示如下:Tensorflow 損失: https ://imgur.com/a/Twacm

當它在訓練時,在每場比賽之后,它會與一個隨機玩家對戰,並在一個帶有加權矩陣的玩家之后進行比賽,但它會上下波動:結果: https : //imgur.com/a/iGuu2

基本上,我正在做一個學習玩黑白棋的強化學習代理。 使用 E-greedy,在 Tensorflow 上使用 Keras 體驗重放和深度網絡。 嘗試了不同的架構,如 sigmoid、relu 和上圖所示的 tanh。 他們都有類似的損失,但結果有點不同。 在這個例子中,代理從 10 萬場專業游戲中學習。 這是架構,默認學習率為 0.005:

model.add(Dense(units=200,activation='tanh',input_shape=(64,)))
model.add(Dense(units=150,activation='tanh'))
model.add(Dense(units=100,activation='tanh'))
model.add(Dense(units=64,activation='tanh'))
optimizer = Adam(lr=lr, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=0.0)
model.compile(loss=LOSS,optimizer=optimizer)

原代碼: https : //github.com/JordiMD92/thellia/tree/keras

那么,為什么我會得到這些結果? 現在我的輸入是 64 個神經元(8*8 矩陣),其中 0 個空白方塊、1 個黑色方塊和 -1 個白色方塊。 使用負輸入是不是很糟糕?

這可能是您的激活功能的問題。 嘗試使用 relu 而不是 tanh,如果您使用的是深度 q 學習,您可能不需要任何激活函數或關心重置權重的優化器。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM