[英]Self-built Neural Network
我一直在尝试自己构建一个简单的神经网络(3 层)来预测 MNIST 数据集。 我在网上参考了一些代码,自己写了一些代码,代码运行没有任何错误,但是学习过程有问题。 训练有素的网络总是给我错误的预测,无论我作为输入传递什么,一两个类总是有很高的概率。 我试图找出问题所在,但几天内没有任何进展。 谁能给我一些提示我做错了什么?
import numpy as np
from PIL import Image
import os
np.set_printoptions(formatter={'float_kind':'{:f}'.format})
def init_setup():
#three layers perception
w1=np.random.randn(10,784)-0.8
b1=np.random.rand(10,1)-0.8
#second layer
w2=np.random.randn(10,10)-0.8
b2=np.random.randn(10,1)-0.8
#third layer
w3=np.random.randn(10,10)-0.8
b3=np.random.randn(10,1)-0.8
return w1,b1,w2,b2,w3,b3
def activate(A):
# use ReLU function as the activation function
Z=np.maximum(0,A)
return Z
def softmax(Z):
return np.exp(Z)/np.sum(np.exp(Z))
def forward_propagation(A,w1,b1,w2,b2,w3,b3):
# input A :(784,1)-> A1: (10,1) ->A2: (10,1) -> prob: (10,1)
z1=w1@A+b1
A1=activate(z1)
z2=w2@A1+b2
A2=activate(z2)
z3=w3@A2+b3
prob=softmax(z3)
return z1,A1,z2,A2,z3,prob
def one_hot(Y:np.ndarray)->np.ndarray:
one_hot=np.zeros((10, 1)).astype(int)
one_hot[Y]=1
return one_hot
def back_propagation(A,z1,A1:np.ndarray,z2,A2:np.ndarray,z3,prob,w1,w2:np.ndarray,w3,Y:np.ndarray,lr:float):
m=1/Y.size
dz3=prob-Y
dw3=m*dz3@A2.T
db3= dz3
dz2=ReLU_deriv(z2)*w3.T@dz3
dw2 = dz2@A1.T
db2 = dz2
dz1=ReLU_deriv(z1)*w2.T@dz2
dw1 = dz1@A.T
db1 = dz1
return db1,dw1,dw2,db2,dw3,db3
def ReLU_deriv(Z):
Z[Z>0]=1
Z[Z<=0]=0
return Z
def step(lr,w1,b1,w2,b2,w3,b3,dw1,db1,dw2,db2,dw3,db3):
w1 = w1 - lr * dw1
b1 = b1 - lr * db1
w2 = w2 - lr * dw2
b2 = b2 - lr * db2
w3 = w3 - lr * dw3
b3 = b3 - lr * db3
return w1,b1,w2,b2,w3,b3
把功能放在一起
def learn():
lr=0.5
dir=r'C:\Users\Desktop\MNIST - JPG - training\{}'
w1,b1,w2,b2,w3,b3=init_setup()
for e in range(10):
if e%3 == 0:
lr=lr/10
for num in range(10):
Y=one_hot(num)
# print(Y)
path=dir.format(str(num))
for i in os.listdir(path):
img=Image.open(path+'\\'+i)
A=np.asarray(img)
A=A.reshape(-1,1)
z1,A1,z2,A2,z3,prob=forward_propagation(A,w1,b1,w2,b2,w3,b3)
# print('loss='+str(np.sum(np.abs(Y-prob))))
db1,dw1,dw2,db2,dw3,db3=back_propagation(A,z1,A1,z2,A2,z3,prob,w1,w2,w3,Y,lr)
w1,b1,w2,b2,w3,b3=step(lr,w1,b1,w2,b2,w3,b3,dw1,db1,dw2,db2,dw3,db3)
return w1,b1,w2,b2,w3,b3
optimize_params=learn()
w1,b1,w2,b2,w3,b3=optimize_params
img=Image.open(r'C:\Users\Desktop\MNIST - JPG - training\2\5.jpg')
A=np.asarray(img)
A=A.reshape(-1,1)
z1,A1,z2,A2,z3,prob=forward_propagation(A,w1,b1,w2,b2,w3,b3)
print(prob)
print(np.argmax(prob))
运行学习 function 后,网络给了我这样的东西
>>>[[0.040939]
[0.048695]
[0.048555]
[0.054962]
[0.060614]
[0.066957]
[0.086470]
[0.117370]
[0.163163]
[0.312274]]
>>>9
结果显然是错误的,真正的label应该真的是2,但是我们在prob上看到,class 2的值极低,所以我相信在学习过程中一定有问题。 但是我完全不知道,有人可以给我一些提示吗?
您当前的代码仅在标签 0 和 1 上训练
for num in range(2):
因此,您的 model 无法“了解”任何其他标签。
现在您的 model 以非常有序的方式进行训练,因此对最后的课程有偏见。 因为这些是它在训练期间看到的最后一个。 您应该在每个 epoch 中打乱您的训练数据,而不是按类别提供网络
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.