繁体   English   中英

多类分类的CNN模型过拟合

[英]CNN model overfitting on multi-class classification

我试图用手套的嵌入训练根据CNN模型这篇文章 (也是RNN,它有这个问题 )。 数据集是带有标签的数据:带有标签(讨厌,令人反感或两者都不带)的文本(推文)。

问题在于模型在训练集上表现良好,但在验证集上表现不佳。

这是模型:

kernel_size = 2
filters = 256
pool_size = 2
gru_node = 64
model = Sequential()
model.add(Embedding(len(word_index) + 1,
                            EMBEDDING_DIM,
                            weights=[embedding_matrix],
                            input_length=MAX_SEQUENCE_LENGTH,
                            trainable=True))
model.add(Dropout(0.25))
model.add(Conv1D(filters, kernel_size, activation='relu'))
model.add(MaxPooling1D(pool_size=pool_size))
model.add(Conv1D(filters, kernel_size, activation='softmax'))
model.add(MaxPooling1D(pool_size=pool_size))
model.add(LSTM(gru_node, return_sequences=True, recurrent_dropout=0.2))
model.add(LSTM(gru_node, return_sequences=True, recurrent_dropout=0.2))
model.add(LSTM(gru_node, return_sequences=True, recurrent_dropout=0.2))
model.add(LSTM(gru_node, recurrent_dropout=0.2))
model.add(Dense(1024,activation='relu'))
model.add(Dense(nclasses))
model.add(Activation('softmax'))

model.compile(loss='sparse_categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

拟合模型:

X = df.tweet
y = df['classifi']    # classes 0,1,2

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, shuffle=False)
X_train_Glove,X_test_Glove, word_index,embeddings_index = loadData_Tokenizer(X_train,X_test)

model_RCNN = Build_Model_RCNN_Text(word_index,embeddings_index, 20)

model_RCNN.fit(X_train_Glove, y_train,validation_data=(X_test_Glove, y_test),
                              epochs=15,batch_size=128,verbose=2)

predicted = model_RCNN.predict(X_test_Glove)

predicted = np.argmax(predicted, axis=1)
print(metrics.classification_report(y_test, predicted))

这就是分布的样子(0:讨厌,1:进攻,2:都不)

分散

模型总结

模型

结果:

  1. 分类报告 在此处输入图片说明

这是正确的方法还是我在这里错过了一些东西

一般来说,可以解决过度拟合的两个方面:

  1. 改善数据

    • 更多独特的数据
    • 过采样(以平衡数据)
  2. 限制网络结构

    • 辍学(您已经实现了这一点)
    • 较少的参数(您可能希望以较小的网络为基准)
    • 正则化(例如L1和L2)

我建议尝试使用明显更少的参数(因为这很快)和过采样(因为您的数据似乎不正确)。

另外,您也可以尝试使用超参数拟合。 与选择最佳网络相比,使用不同的参数构建大量网络。

注意:如果您进行超参数拟合,请确保有一个额外的验证集,因为您可以通过这种方式轻松地过度拟合测试集。

旁注:有时在对NN进行故障排除时,将优化器设置为基本的随机梯度下降很有帮助。 它减慢了训练速度,但使进度更加清晰。

祝好运!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM