Tensorflow 損失已經很低

Question

我正在做一個帶有強化學習的 AI，我得到了奇怪的結果，損失顯示如下：Tensorflow 損失： https ://imgur.com/a/Twacm

當它在訓練時，在每場比賽之后，它會與一個隨機玩家對戰，並在一個帶有加權矩陣的玩家之后進行比賽，但它會上下波動：結果： https : //imgur.com/a/iGuu2

基本上，我正在做一個學習玩黑白棋的強化學習代理。 使用 E-greedy，在 Tensorflow 上使用 Keras 體驗重放和深度網絡。 嘗試了不同的架構，如 sigmoid、relu 和上圖所示的 tanh。 他們都有類似的損失，但結果有點不同。 在這個例子中，代理從 10 萬場專業游戲中學習。 這是架構，默認學習率為 0.005：

model.add(Dense(units=200,activation='tanh',input_shape=(64,)))
model.add(Dense(units=150,activation='tanh'))
model.add(Dense(units=100,activation='tanh'))
model.add(Dense(units=64,activation='tanh'))
optimizer = Adam(lr=lr, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=0.0)
model.compile(loss=LOSS,optimizer=optimizer)

原代碼： https : //github.com/JordiMD92/thellia/tree/keras

那么，為什么我會得到這些結果？ 現在我的輸入是 64 個神經元（8*8 矩陣），其中 0 個空白方塊、1 個黑色方塊和 -1 個白色方塊。 使用負輸入是不是很糟糕？

Answer 1

這可能是您的激活功能的問題。 嘗試使用 relu 而不是 tanh，如果您使用的是深度 q 學習，您可能不需要任何激活函數或關心重置權重的優化器。

Tensorflow 損失已經很低

問題描述

1 個解決方案

解決方案1
1 已采納 2017-12-26 13:44:19

Tensorflow 損失已經很低

問題描述

1 個解決方案

解決方案1 1 已采納 2017-12-26 13:44:19

解決方案1
1 已采納 2017-12-26 13:44:19