神經網絡 MNIST

Question

我已經研究神經網絡有一段時間了，並使用 python 和 numpy 進行了實現。 我用 XOR 做了一個非常簡單的例子，效果很好。 所以我想我更進一步，嘗試使用 MNIST 數據庫。

這是我的問題。 我正在使用具有 784 個輸入、30 個隱藏神經元和 10 個輸出神經元的 NN。 隱藏層的激活函數只吐出一個，讓網絡基本停止學習。 我正在做的數學是正確的，相同的實現與 XOR 示例一起工作得很好，我正在正確讀取 MNIST 集。 所以我不明白問題從何而來。

import pickle
import gzip

import numpy as np

def load_data():
    f = gzip.open('mnist.pkl.gz', 'rb')
    training_data, validation_data, test_data = pickle.load(f, encoding="latin1")
    f.close()
    return (training_data, validation_data, test_data)

def transform_output(num):
    arr = np.zeros(10)
    arr[num] = 1.0
    return arr

def out2(arr):
    return arr.argmax()


data = load_data()
training_data = data[0]
training_input = np.array(training_data[0])
training_output = [transform_output(y) for y in training_data[1]]

batch_size = 10

batch_count = int(np.ceil(len(training_input) / batch_size))

input_batches = np.array_split(training_input, batch_count)
output_batches = np.array_split(training_output, batch_count)

#Sigmoid Function
def sigmoid (x):
    return 1.0/(1.0 + np.exp(-x))

#Derivative of Sigmoid Function
def derivatives_sigmoid(x):
    return x * (1.0 - x)

#Variable initialization
epoch=1 #Setting training iterations
lr=2.0 #Setting learning rate
inputlayer_neurons = len(training_input[0]) #number of features in data set
hiddenlayer_neurons = 30 #number of hidden layers neurons

output_neurons = len(training_output[0]) #number of neurons at output layer

#weight and bias initialization
wh=np.random.uniform(size=(inputlayer_neurons,hiddenlayer_neurons))
bh=np.random.uniform(size=(1,hiddenlayer_neurons))
wout=np.random.uniform(size=(hiddenlayer_neurons,output_neurons))
bout=np.random.uniform(size=(1,output_neurons))

for i in range(epoch):
    for batch in range(batch_count):

        X = input_batches[batch]
        y = output_batches[batch]

        zh1 = np.dot(X, wh)
        zh = zh1 + bh

        # data -> hidden neurons -> activations
        ah = sigmoid(zh)

        zo1 = np.dot(ah, wout)
        zo = zo1 + bout

        output = sigmoid(zo)

        # data -> output neurons -> error
        E = y - output

        print("debugging")
        print("X")
        print(X)
        print("WH")
        print(wh)
        print("zh1")
        print(zh1)
        print("bh")
        print(bh)
        print("zh")
        print(zh)
        print("ah")
        print(ah)
        print("wout")
        print(wout)
        print("zo1")
        print(zo1)
        print("bout")
        print(bout)
        print("zo")
        print(zo)
        print("out")
        print(output)
        print("y")
        print(y)
        print("error")
        print(E)
        # data -> output neurons -> slope
        slope_out = derivatives_sigmoid(output)

        # data -> output neurons -> change of error
        d_out = E * slope_out

        # data -> hidden neurons -> error = data -> output neurons -> change of error DOT output neurons -> output inputs (equal to hidden neurons) -> weights
        error_hidden = d_out.dot(wout.T)

        # data -> hidden neurons -> slope
        slope_h = derivatives_sigmoid(ah)

        # data -> hidden neurons -> change of error
        d_hidden = error_hidden * slope_h

        # hidden neurons -> output neurons -> weights = "" + hidden neurons -> data -> activations DOT data -> output neurons -> change of error
        wout = wout + ah.T.dot(d_out) * lr
        bout = bout + np.sum(d_out, axis=0, keepdims=True) * lr

        wh = wh + X.T.dot(d_hidden) * lr
        bh = bh + np.sum(d_hidden, axis=0, keepdims=True) * lr
    # testing results
    X = np.array(data[1][0][0:10])
    zh1 = np.dot(X, wh)
    zh = zh1 + bh

    # data -> hidden neurons -> activations
    ah = sigmoid(zh)

    zo1 = np.dot(ah, wout)
    zo = zo1 + bout

    output = sigmoid(zo)
    print([out2(y) for y in output])
    print(data[1][1][0:10])

所以總的來說，神經網絡的輸出對於每個輸入都是相同的，用不同的批次大小、學習率和 100 個 epoch 對其進行訓練並沒有幫助。

Answer 1

XOR 和 MNIST 問題之間的區別在於類的數量：XOR 是二元分類，而在 MNIST 中有 10 個類。

您計算為錯誤E適用於 XOR，因為 sigmoid 函數可以在二進制情況下使用。 當類超過 2 個時，必須使用softmax 函數，它是 sigmoid 的擴展版本，以及交叉熵損失。 看看這個問題，看看有什么不同。 您已將y正確轉換為單熱編碼，但output不包含預測的概率分布，實際上 in 包含一個包含 10 個值的向量，每個值都非常接近1.0 。 這就是網絡不學習的原因。

神經網絡 MNIST

問題描述

1 個解決方案

解決方案1
2 2017-10-10 14:37:27

神經網絡 MNIST

問題描述

1 個解決方案

解決方案1 2 2017-10-10 14:37:27

解決方案1
2 2017-10-10 14:37:27