[英]How to change the length of the unidentified speech signal during recognition?
如幾本書中所述,孤立詞的識別過程包括以下內容:
因為語音信號的持續時間不同,所以它們的長度通過動態時間規整(DTW)技術對齊,因此所有模板的N都相同。 可以在培訓期間完成。
我的問題是:如何更改測試信號的長度? 我不能在其上使用DTW,因為我不知道它屬於哪個類。 我應該使用“時間拉伸”算法來保持音高嗎?如果應該,它將如何影響識別精度?
通過提取N幀在時間上更近或更遠的特征,可以為“時間拉伸”信號獲得等效的MxN特征向量。
您無需更改長度即可進行匹配。 您可以從參考樣本和測試樣本中提取特征,它們均具有不同數量的幀。 然后,您在每個參考和測試之間應用DTW,從而對齊它們。 通過DTW運行,您可以獲得測試樣品和每個參考之間的匹配分數。 您要做的是非均勻地拉伸每個參考樣品以匹配測試樣品。 因為您將每個參考與單個測試進行了比較,所以可以在比較中使用DTW分數。 因此,您可以選擇分數最高的參考。
有關DTW語音識別的詳細信息和想法,請查看此演示文稿 。
如果您想更進一步了解 DTW的語音識別概念,可以閱讀Biing-Hwang Juang的Lawrence Rabiner撰寫的《語音識別基礎》第一版 。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.