簡體 English 中英

識別過程中如何改變語音信號的長度？

[英]How to change the length of the unidentified speech signal during recognition?

原文 2015-12-18 14:06:52 2 2 signal-processing/ speech-recognition

如幾本書中所述，孤立詞的識別過程包括以下內容：

對於給定的一組信號（模板），確定每個模板的特征向量-矩陣M×N，其中M為特征數（MFCC，ZCR等），N為幀數。
使用某些算法訓練模板，例如ANN，HMM，GMM，SVM。
通過訓練好的模型識別測試信號。

因為語音信號的持續時間不同，所以它們的長度通過動態時間規整（DTW）技術對齊，因此所有模板的N都相同。 可以在培訓期間完成。

我的問題是：如何更改測試信號的長度？ 我不能在其上使用DTW，因為我不知道它屬於哪個類。 我應該使用“時間拉伸”算法來保持音高嗎？如果應該，它將如何影響識別精度？

2 個解決方案

通過提取N幀在時間上更近或更遠的特征，可以為“時間拉伸”信號獲得等效的MxN特征向量。

您無需更改長度即可進行匹配。 您可以從參考樣本和測試樣本中提取特征，它們均具有不同數量的幀。 然后，您在每個參考和測試之間應用DTW，從而對齊它們。 通過DTW運行，您可以獲得測試樣品和每個參考之間的匹配分數。 您要做的是非均勻地拉伸每個參考樣品以匹配測試樣品。 因為您將每個參考與單個測試進行了比較，所以可以在比較中使用DTW分數。 因此，您可以選擇分數最高的參考。