繁体   English   中英

神经网络的最后一层应该有多少个神经元?

[英]How many neurons should be in the last layer of the neural network?

我使用以下代码将电影评论分为三类(负面为 -1,中性为 0,1 为正面)。 但是对于三类分类问题,最后一层真的只有一个 output 神经元吗?

import tensorflow as tf
import numpy as np
import pandas as pd
import numpy as K

csvfilename_train = 'train(cleaned).csv'
csvfilename_test = 'test(cleaned).csv'

# Read .csv files as pandas dataframes
df_train = pd.read_csv(csvfilename_train)
df_test = pd.read_csv(csvfilename_test)

train_sentences  = df_train['Comment'].values
test_sentences  = df_test['Comment'].values

# Extract labels from dataframes
train_labels = df_train['Sentiment'].values
test_labels = df_test['Sentiment'].values

vocab_size = 10000
embedding_dim = 16
max_length = 30
trunc_type = 'post'
oov_tok = '<OOV>'

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

tokenizer = Tokenizer(num_words = vocab_size, oov_token = oov_tok)
tokenizer.fit_on_texts(train_sentences)
word_index = tokenizer.word_index
sequences = tokenizer.texts_to_sequences(train_sentences)
padded = pad_sequences(sequences, maxlen = max_length, truncating = trunc_type)

test_sequences = tokenizer.texts_to_sequences(test_sentences)
test_padded = pad_sequences(test_sequences, maxlen = max_length)

model = tf.keras.Sequential([
    tf.keras.layers.Embedding(vocab_size, embedding_dim, input_length = max_length),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(6, activation = 'relu'),
    tf.keras.layers.Dense(1, activation = 'sigmoid'),
])
model.compile(loss = 'binary_crossentropy', optimizer = 'adam', metrics = ['accuracy'])

num_epochs = 10
model.fit(padded, train_labels, epochs = num_epochs, validation_data = (test_padded, test_labels))

当我将tf.keras.layers.Dense(1, activation = 'sigmoid')更改为tf.keras.layers.Dense(2, activation = 'sigmoid')时,它给了我以下错误

---> 10 model.fit(padded, train_labels, epochs = num_epochs, validation_data = (test_padded,test_labels))
     ValueError: logits and labels must have the same shape ((None, 2) vs (None, 1))

如果您在 3 个类别之间进行分类,您应该有 3 个神经元。

此外,您应该为最后一层使用'softmax'激活,假设所有观察都在一个 class 中。

接下来,您应该使用'sparse_categorical_crossentropy'因为您的输入不是一次性编码的。 [0,0,1], [0,1,0], [1,0,0]等目标是可选的,您也可以有[1, 2, 0, 1, 2, 1, 0]

最后,您的目标应该是[0, 1, 2]而不是[-1, 0, 1]所以我建议您在标签中添加 1。

test_labels = df_test['Sentiment'].values + 1

如果标签是[-1, 0, 1]而不是[0, 1, 2]会发生这种情况:

import tensorflow as tf

sparse_entropy = tf.losses.SparseCategoricalCrossentropy()

a = tf.convert_to_tensor([[-1., 0., 1.]]) #+ 1
b = tf.convert_to_tensor([[.4, .2, .4], [.1, .7, .2], [.8, .1, .1]])

sparse_entropy(a, b)
nan

如果您取消注释+1 ,它将标签转换为[0, 1, 2] ,它可以工作:

<tf.Tensor: shape=(), dtype=float32, numpy=1.1918503>

简短的回答:

一个热编码您的火车标签并使用分类交叉熵作为损失 function。

原因:

  1. 您的 logits 具有形状 (n,2),但标签具有 (n,1)。
  2. 如果您使用交叉熵(除非它是稀疏的),您的 logits 和标签应该是形状 (n,3)。

解决方案:

  1. 对火车标签进行一次热编码,您将获得火车标签形状 (n,3)
  2. 使用具有 3 个输出的最终密集神经元的分类交叉熵,然后您将获得 logits shape(n,3)

您的 model 将在此之后开始学习。

你有 3 个类 -> num_classes=3 你的最后一层应该是这样的:

tf.keras.layers.Dense(num_classes, activation = 'sigmoid'),

您将收到一个具有 3 个概率的 np.array,即 output。 此外,您应该将 class 更改为 categorical_crossentropy,因为您没有解决二进制问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM