當我們使用實值訓練目標時，為什么使用二進制交叉熵損失函數進行的神經網絡訓練會停滯不前？

Question

假設我們有一個二進制分類問題，其中訓練目標不在{0,1}中，而在[0,1]中。 我們使用以下代碼在Keras中訓練一個簡單的分類器：

model = Sequential()
model.add(Dense(100, input_shape=(X.shape[1],), activation='relu'))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='rmsprop')
model.fit(X,y)

如果我們通過實際的訓練目標（在[0,1]中），則訓練幾乎不會繼續進行，陷入其初始損失值附近； 但是，如果我們量化{0,1}中的目標，則效果會更好，可以迅速減少訓練損失。

這是正常現象嗎？ 是什么原因

編輯：這是可重復的實驗。 這是獲得的圖：

Answer 1

您聲明要解決二進制分類任務，目標應為二進制值，即{0,1}。

但是，如果您的目標是[0,1]中的某個浮點值，則實際上是在嘗試執行回歸。

除其他外，這改變了對損失功能的要求。 看到Tensorflow交叉熵進行回歸？ ，其中更詳細地討論了交叉熵損失用於回歸的用法。

當我們使用實值訓練目標時，為什么使用二進制交叉熵損失函數進行的神經網絡訓練會停滯不前？

問題描述

1 個解決方案

解決方案1
0 2018-11-20 13:17:25

當我們使用實值訓練目標時，為什么使用二進制交叉熵損失函數進行的神經網絡訓練會停滯不前？

問題描述

1 個解決方案

解決方案1 0 2018-11-20 13:17:25

解決方案1
0 2018-11-20 13:17:25