簡體   English   中英

識別過程中如何改變語音信號的長度?

[英]How to change the length of the unidentified speech signal during recognition?

如幾本書中所述,孤立詞的識別過程包括以下內容:

  1. 對於給定的一組信號(模板),確定每個模板的特征向量-矩陣M×N,其中M為特征數(MFCC,ZCR等),N為幀數。
  2. 使用某些算法訓練模板,例如ANN,HMM,GMM,SVM。
  3. 通過訓練好的模型識別測試信號。

因為語音信號的持續時間不同,所以它們的長度通過動態時間規整(DTW)技術對齊,因此所有模板的N都相同。 可以在培訓期間完成。

我的問題是:如何更改測試信號的長度? 我不能在其上使用DTW,因為我不知道它屬於哪個類。 我應該使用“時間拉伸”算法來保持音高嗎?如果應該,它將如何影響識別精度?

通過提取N幀在時間上更近或更遠的特征,可以為“時間拉伸”信號獲得等效的MxN特征向量。

您無需更改長度即可進行匹配。 您可以從參考樣本和測試樣本中提取特征,它們均具有不同數量的幀。 然后,您在每個參考和測試之間應用DTW,從而對齊它們。 通過DTW運行,您可以獲得測試樣品和每個參考之間的匹配分數。 您要做的是非均勻地拉伸每個參考樣品以匹配測試樣品。 因為您將每個參考與單個測試進行了比較,所以可以在比較中使用DTW分數。 因此,您可以選擇分數最高的參考。

有關DTW語音識別的詳細信息和想法,請查看此演示文稿

如果您想更進一步了解 DTW的語音識別概念,可以閱讀Biing-Hwang Juang的Lawrence Rabiner撰寫的《語音識別基礎》第一版

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM