簡體   English   中英

如何將可變長度的語音特征提供給 RNN(LSTM)以進行語音識別?

[英]How to feed variable-length of speech feature to RNN(LSTM) for Speech Recognition?

我正在嘗試構建一個語音識別系統,它是一個序列到序列的模型。 但是我對如何將提取的特征(維度為 40 的 fbank)提供給 LSTM 感到困惑。 據我所知,有不同的方法可以將數據作為輸入提供給 LSTM。 但是,我懷疑要完全理解它們。 如果有人告訴我在以下情況下我是否正確,我將非常感激。

情況1:在方便的格式[BATCH_SIZE,Time_Step,Feature_Dim],如果我選擇[1,,40],每個序列(發聲)的長度可以變化? 如果是這樣,在這種情況下,我不需要填充每個序列,對嗎?

情況 2:如果所有輸入序列都填充到相同的長度,則 Batch_Size 可以是任何值,例如 64、128 等?

最后,還有一個問題,我是否注意到每個 Batch 中的 Time_Step 應該是相同的?

如果有人可以幫助我擺脫疑慮或給我一些建議,我將非常感激。

這取決於您的系統是如何構建的,它是端到端培訓還是您使用了 MFCC 等手工工程功能? 還要注意的是,RNN 的主要用途是具有可變長度的輸入。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM