标签[lstm] - 堆栈内存溢出

使用一个 LSTM 单元的 output 个单元和隐藏状态作为另一个单元的输入状态 - Using output cell and hidden states of one LSTM cell as input states for another

通常，在讨论堆叠 LSTM（具有独立权重）时，单元格和隐藏状态对于每个单独的单元格都是唯一的，并且不在它们之间共享。每个 LSTM 单元以其自己的一组状态独立运行。是否有任何理由使用一个 LSTM 单元的 output 单元 state 和隐藏的 state 作为输入单元 state 和另一个 ...

前馈神经网络的批量大小 - Batch size for Feed-Forward Neural Network

我有一个 100k 的 ML 数据集，我应该为训练设置多少批量大小？仅供参考 - 我正在使用 train_test_split 库将数据拆分为训练集和测试集。谢谢你！ ## 拟合网络 ...

如何在训练循环中访问中间输出的梯度？ - How to access the gradients of intermediate outputs during the training loop?

假设我有以下（相对）小的 lstm model：首先，让我们创建一些伪输入/目标数据：现在，让我们定义一个简单的 lstm model：实例化 model，失去乐趣。和优化器：现在，在训练循环期间，我想打印每个时期的中间（ a_s.grad ， b_s.grad ）输出的梯度：但我得到 ...

DL4J LSTM - 矛盾错误 - DL4J LSTM - Contradictory Errors

我试图在 Java 中使用 Deeplearning4J 创建一个简单的 LSTM，具有 2 个输入特征和 1 的时间序列长度。但是，我在调用 predict() 时遇到了有关输入维数的错误。运行时出现如下错误：我觉得这很奇怪，但我还是尝试重塑它： ...导致相反的问题：我到底做错了什么？ ...

lstm 中的 model.fit 中的 ValueError - ValueError in model.fit in lstm

我正在尝试将 lstm model 与我读取为 csv 文件的数据相匹配。 (320,6) 是 x_train 的形状，model 给出为这个 model.fit() 显示值错误 ...

使用 LSTM 预测类别 - Using an LSTM to predict a category

我的数据集包含一条数据点曲线，其中有一列标记为“购买”。 “买入”表示曲线在此时达到局部最大值或最小值（由于平滑以找到这些点但主要在 1 行内，因此不完全准确）。 0 表示它不是最大值或最小值，1 表示它是最大值，2 表示它是最小值。问题是这会在我的数据集中留下大量的 0，我怀疑这些 0 会导 ...

如何重塑数组以使用 LSTM 进行预测 - how to reshape array to predict with LSTM

我根据本教程制作了一个 LSTM model，其中 model 输入批形状为：回报：有人可以告诉我如何将我的测试数据更改为这个数组形状以匹配 model 输入批量大小吗？回报 ...

ValueError：以 10 为底的 int() 的无效文字：'' 使用 ANN Visualizer - ValueError: invalid literal for int() with base 10: '' using ANN Visualizer

我使用下面的 package 来可视化 lstm 架构。但是，我收到以下错误：代码 Output ...

在用于机器翻译的 seq2seq RNN 训练期间，损失急剧下降，而 BLEU 分数保持为零 - loss is drastically decreasing whereas BLEU score stays at zero during training of the seq2seq RNN for machine translation

我正在尝试使用 LSTM 训练用于机器翻译的 RNN。然而，第一批的 BLEU 减少到零，并在所有训练期间保持在这个水平。与此同时，损失正在急剧减少。可能是什么问题？ **代码： ** 训练，在开发数据集和损失上评估的 BLEU 分数图训练，在开发数据集和损失上评估的 BLEU 分数图我认 ...

带 LSTM 层的 CNN - CNN with LSTM-Layer

我已经实现了一个带有 LSTM 层的 CNN。我的输入包含四张图片。通过特征提取将图像转换为张量。输入形状是 (4,256,256,3)。下面是我的model的结构：我的问题是我的 model 预测所有输入的值相同。可能是什么问题呢？ ...

如何使用 LSTM model 预测下一个词？ - How predict next word using LSTM model?

我目前正在 Pytorch 中构建一个 LSTM model 来预测给定输入的下一个单词。我的model：培训和评估功能：训练循环我的问题是我不知道如何与 go 联系。我看过一些基于字符的 LSTM 文本生成器的实现，但我正在寻找它是基于单词的。例如，我想传递“你好吗”之类的输入，ou ...

Keras 输入过程与 DataFrame 可变长度字符串列表 - Keras input process with DataFrame variable length list of strings

我正在尝试构建一个采用顺序特征和标量特征的 TF/Keras model。训练数据来自Pandas DataFrame。一个例子的顺序特征可以被认为是DataFrame的一列下的字符串（或不同长度的单词）列表。单词本身可以看作是分类的，唯一的数量字数有限。我想知道处理此类数据的正确顺序和方法是什 ...

LSTM 命名实体识别 model - 形状不兼容或逻辑/标签具有不同的尺寸 - Tensorflow 2.9 - LSTM named entity recognition model - shape are incompatible or logits/labels have different dimensions - Tensorflow 2.9

我正在处理 NLP LSTM 命名实体提取 model 但遇到不同的错误，下面是有关错误的更多详细信息。我在木星笔记本中运行这段代码 Tensorflow 版本 2.9 input 和 output 的长度都是 50 输入句子：[123 88 170 221 132 52 105 32 211 ...

当 RNN 可以采用动态输入序列时，为什么我们对句子使用填充？ - Why we use padding for sentences, when RNN can take dynamic sequence of input?

在阅读问题时，请考虑左图（折叠图像）在我们展开 RNN 的图中，我们将 T 时间戳的 output 传递到下一个 T+1 时间戳，这是到同一个 RNN 或者我们将 T 时间戳的 output 发送回同一个神经网络，所以我们在同一个神经/神经元上循环这个过程。让我们将架构视为多对一 RNN。因 ...

结合 LSTM 中的文本和分类特征 model (Keras) - Combine Text and categorical feature in LSTM model (Keras)

我有一个 dataframe 像：我想知道是否有人知道是否有办法同时使用文本和主题（分类变量）来预测 Label。 ...

LSTM 回归 model 平坦预测 - LSTM regression model flat prediction

这是电池容量为output，单输入变量为电压的时间序列回归问题；这种关系是非线性的。 LSTM Model 对测试数据的预测总是返回一条半平坦的线，可能是训练数据中 output 变量的均值。这是预测与测试集 output 值的示例，具有以下 model 参数：（窗口大小：10，批处理站点：2 ...

如何将掩蔽损失与 tensorflow2 TimeSeriesGenerator 结合起来 - How to combine a masked loss with tensorflow2 TimeSeriesGenerator

我们正在尝试使用卷积 LSTM 来预测给定过去 7 个时间步长的图像的值。我们使用了 tensorflow2 TimeSeriesGenerator 方法来创建我们的时间序列数据：每个图像（时间步长）都具有形状 (55, 50, 1)，因此生成器生成了具有形状 (32, 7, 55, 50, 1 ...

如何在 LSTM 上进行预测时使用有关未来的数据 - How to use data about future while doing prediction on LSTM

假设我正在训练 model 来预测明天的销售额。我有前几天和未来几天的数据，我知道我以前的销售额。关于明天，我知道这是一个工作日，会有雨，而且是假期。我如何使用这些数据进行预测？数据集看起来像这样。工作日假期天气销售量 1个 0 雨天 25 1个 0 雨天 27 1个 1个晴天 23 ...

使用相同的不同输入但相同的目标训练 model - Training model with same different input but same target

我正在学习 MLP、LSTM、CNN 和 GRU 模型。在这个项目中，我遇到了一个我认为是由我的数据集引起的问题。我有四个特征，我需要使用其中两个作为输入，另外两个作为 output。output 特征具有相同的值 10x，而输入特征具有不同的值。因为上面的值在输入列中产生下面的值，顺序总是 ...

ConvLSTM，回归还是分类？ - ConvLSTM, Regression or Classification?

使用卷积 LSTM 进行下一帧视频预测是回归问题还是分类？为什么要回归/分类？为什么我们使用最后一个 Conv3D 层？ ...