簡體   English   中英

如何確定語音識別中HMM的觀察序列長度

[英]How to determine length of observation sequence for HMM in speech recognition

我正在重新學習如何使用隱馬爾可夫模型進行語音識別,我有一個問題。 似乎大多數/所有使用HMM的討論都考慮了已知觀測序列的情況:[O1,O2,O3,...,OT]其中T是一個已知數。 但是,如果我們嘗試在語音上實時使用受過訓練的HMM,或者在有人逐個說出一句話的WAV文件中使用經過訓練的HMM,那么究竟如何選擇T的值呢? 換句話說,如何知道說話者何時結束一個句子並開始另一個句子? 實際的用於語音識別的HMM是否僅使用固定值T並使用過去固定長度的長度為T的窗口周期性地重新計算最佳狀態序列,直到當前觀察? 還是有一些更好的方法可以隨時隨地動態選擇T?

實際的用於語音識別的HMM是否僅使用固定值T並使用過去固定長度的長度為T的窗口周期性地重新計算最佳狀態序列,直到當前觀察?

Viterbi解碼算法逐幀工作,因此您只需遍歷幀,就可以無限期地進行迭代,直到回溯矩陣填滿所有內存為止。

訓練算法會考慮訓練前准備的音頻,通常為1-30秒。 用於訓練的音頻長度是已知的。

如何知道說話者何時結束一個句子並開始另一個句子?

這里有不同的策略。 解碼器搜索靜音以環繞解碼。 沉默不一定意味着句子之間的中斷,句子之間可能根本沒有中斷。 句子的中間也可能會中斷。

因此,要找到靜音,解碼器可以使用獨立的語音活動檢測算法,並在VAD檢測到靜音時中斷,或者解碼器可以分析回溯信息來確定是否出現靜音。 第二種方法更可靠。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM