簡體 English 中英

如何將可變長度的語音特征提供給 RNN（LSTM）以進行語音識別？

[英]How to feed variable-length of speech feature to RNN(LSTM) for Speech Recognition?

原文 2020-01-11 18:22:47 9 1 python/ speech-recognition/ lstm/ recurrent-neural-network/ speech-to-text

我正在嘗試構建一個語音識別系統，它是一個序列到序列的模型。 但是我對如何將提取的特征（維度為 40 的 fbank）提供給 LSTM 感到困惑。 據我所知，有不同的方法可以將數據作為輸入提供給 LSTM。 但是，我懷疑要完全理解它們。 如果有人告訴我在以下情況下我是否正確，我將非常感激。

情況1：在方便的格式[BATCH_SIZE，Time_Step，Feature_Dim]，如果我選擇[1，無，40]，每個序列（發聲）的長度可以變化？ 如果是這樣，在這種情況下，我不需要填充每個序列，對嗎？

情況 2：如果所有輸入序列都填充到相同的長度，則 Batch_Size 可以是任何值，例如 64、128 等？

最后，還有一個問題，我是否注意到每個 Batch 中的 Time_Step 應該是相同的？

如果有人可以幫助我擺脫疑慮或給我一些建議，我將非常感激。

1 個解決方案

這取決於您的系統是如何構建的，它是端到端培訓還是您使用了 MFCC 等手工工程功能？ 還要注意的是，RNN 的主要用途是具有可變長度的輸入。

如何在語音情感特征中應用lstm

[英]How to apply lstm in speech emotion feature

如何使用谷歌語音識別進行實時語音識別

[英]How to perform realtime speech recognition using google speech recognition

Python 語音轉文本和語音識別

[英]Python Speech to text and speech recognition

Keras lstm具有用於可變長度輸入的屏蔽層

[英]Keras lstm with masking layer for variable-length inputs

如何堆疊LSTM圖層以對語音文件進行分類

[英]How to stack LSTM layers to classify speech files

如何控制Microsoft語音識別應用程序？

[英]How to control Microsoft Speech Recognition app?

如何使用 MFCC 特征訓練用於語音識別的 NN

[英]How to train a NN for speech recognition with MFCCs features

如何刪除pyspeech Windows語音識別命令？

[英]How to remove pyspeech windows speech recognition commands?

如何禁用Windows語音識別命令？

[英]how to disable windows speech recognition commands?

如何在 python 中進行自定義語音識別？

[英]How to make custom speech recognition in python?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何在語音情感特征中應用lstm 如何使用谷歌語音識別進行實時語音識別 Python 語音轉文本和語音識別 Keras lstm具有用於可變長度輸入的屏蔽層如何堆疊LSTM圖層以對語音文件進行分類如何控制Microsoft語音識別應用程序？如何使用 MFCC 特征訓練用於語音識別的 NN 如何刪除pyspeech Windows語音識別命令？如何禁用Windows語音識別命令？如何在 python 中進行自定義語音識別？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM