我一直在努力创建一个自动语音识别 neural.network 使用 tensorflow 在 hugging face mozilla common voice 11 数据集上训练。 在损失突然变为无穷大之前,model 似乎训练了大约 100 个批次。 下面是数据预处理的代码: 这是 model ...
我一直在努力创建一个自动语音识别 neural.network 使用 tensorflow 在 hugging face mozilla common voice 11 数据集上训练。 在损失突然变为无穷大之前,model 似乎训练了大约 100 个批次。 下面是数据预处理的代码: 这是 model ...
我想为语音识别系统构建一个 TFF model。 为此,我使用具有 CTC 损失 function 的 CNN-GRU model 架构。 但是当我想 build_federated_averaging_process 并认为这是关于 ctc_loss function 时出现错误,但我无法修复它 ...
我正在研究 tensorflow ocr model 来自 A_K_Nain 编写的 keras 示例。 这个 model 使用自定义 object(CTC 层)。 它在站点中: https://keras.io/examples/vision/captcha_ocr/我使用我的数据集训练了 mo ...
我想使用 torchaudio ctc_decoder 模块制作 ctc_decoder。 根据本教程使用 CTC 解码器进行ASR 推理,它应该像往常一样容易导入,但即使在安装了 torchaudio 之后,我也无法在 google colab 中这样做。 它说ModuleNotFoundErro ...
根据我之前提出的一个问题的答案,我正在尝试使自定义指标word_accuracy和char_accuracy与张量word_accuracy char_accuracy -CTC 模型实现一起使用。 运行以下几行后,它在链接中工作得很好: 这是CTC自定义层以及精度计算功能: if y_t ...
考虑到您有一个与此类似的基本模型: 您将如何实施 CTC 损失? 我在 OCR 上的 keras 代码教程中尝试了一些像这样的东西: 然而,当谈到 model.fit 部分时,它开始崩溃,因为我不知道如何为模型提供“标签”输入层的东西。 我认为教程中的方法非常明确,那么实现 CTC 损失的更 ...
我正在使用以下命令开始 deepspeech model 的培训 我一次又一次地收到以下错误。 ...
所以我试图将莫尔斯码信号转换为它们的字符串表示形式。 某些形式的预处理从 [0, 1] 产生归一化浮点数的一维数组,用作 C/RNN 的输入。 例子: 该图像沿 y 轴拉伸以获得更好的可见性,但 NN 的输入是 1d。 我正在寻找一种聪明的方式来翻译图像的内容,在这个例子中,正确的翻译是“WPM ...
我正在关注Keras上的本教程,但我不知道如何在训练后使用自定义层正确保存此模型并加载它。 此处和此处已提到此问题,但显然这些解决方案均不适用于此 Keras 示例。 谁能指出我正确的方向? PS:这里是代码的主要部分: ...
我正在研究应用于 colab 中 Kaggle 单词 mnist 数据集的 OCR 模型。 我受到来自 ocr captcha 的模型的启发,其中 LSTM 和 CTC 层由 A_K_Nain 在网站托管的 Keras 示例中创作: https ://keras.io/examples/vision ...
我正在研究应用于 colab 中 Kaggle 单词 mnist 数据集的 OCR 模型。 我受到来自 ocr captcha 的模型的启发,该模型由 A_K_Nain 在网站托管的 Keras 示例中创作的 LSTM 和 CTC 层: https ://keras.io/examples/visi ...
我试图运行这个 HTR Model https://github.com/arthurflor23/handwritten-text-recognition但它给了我这个错误Invalid argument: Not enough time for target transition sequenc ...
我在进行 CTC 培训时遇到以下错误: InvalidArgumentError:找到 2 个根错误。 (0) Invalid argument: Saw a non-null label (index >= num_classes - 1) following a null label ...
我有一个训练有素的CRNN model 应该可以识别图像中的文本。 它确实有效,到目前为止还不错。 My output is a CTC loss layer and I decode it with the tensorflow function keras.backend.ctc_decode ...
所以我尝试使用 librispeech 数据集 dev-clean 创建语音识别 neural.network。 我尝试将https://github.com/soheil-mpg/Speech-Recognition中的代码转换为 jupyter notebook。 一切似乎都在工作。 mod ...
我正在尝试使用 keras 为我的简化神经网络实现 CTC 损失: 我们有 (3800,4) 维的 y_true(或 y_train),因此我把 label_length=4 和 input_length=5(+1 表示空白) 我面临这个错误: y_true 是这样的: 我的问题是什 ...
我是 openvino 工具包提供的 LPRNet 的新手: https : //github.com/openvinotoolkit/training_extensions 我想获得预测结果的概率,但似乎tf.nn.ctc_greedy_decoder只返回neg_sum_logits ,我不知 ...
我正在尝试学习如何在AVR使用CTC模式,并且我正在尝试弄清楚为什么我在设置比较值时应该减去 1。 例如,现在我正在每 200 毫秒发送一次AVR的工作时间,通过计算我发现该值应该是 50000,但是在有关该程序的视频中,该男子声称它应该是 50000-1 ,这是为什么? ...
我想用 Tensorflow 实现一个带有 CTC 损失的语音识别器。 输入特征具有可变长度,因为每个语音话语都可以具有可变长度。 标签也有可变长度,因为每个转录都是不同的。 我手动填充特征以创建批次,在我的模型中,我有 tf.keras.layers.Masking() 层来创建和通过网络传播掩码 ...
我尝试在 ubuntu 18.04 上安装 ctcdecode,但这并不容易。 首先,我将存储库克隆到我的服务器,并且在“pip install”时发生错误。 在克隆的根存储库中。 它是安装指南。 git clone --recursive https://github.com/parlance/ ...