[英]Voice Recognition (with ML?), not Speech Recognition
我正在尋找用於語音識別的示例代碼(不要與語音識別相混淆),即-我需要構建一個可以檢測特定人的語音的模型。
我可能最終會嘗試用我自己的數據調整Tensor Flow“簡單音頻識別” ...這是最好的做法嗎? 還有其他建議嗎?
在很大程度上取決於具體情況。 您將擁有多少培訓樣本? 您打算認識多少人? 信噪比是多少? 系統必須識別多少時間? 應該有多嚴格?
不過,我已經告訴您,從神經網絡開始是一個糟糕的做法,因為您立即放棄對領域的理解。 與大多數其他學習系統相比,對行為異常的神經網絡進行故障排除要麻煩得多。
我建議您構建自己的功能,而不是一開始就依賴ANN。 現在,我假設您對Python(作為大多數TF用戶)沒問題,並提出以下模塊:
作為一種選擇,您可以使用這三個MFCC中的任何一個進行計算,並以此為基礎構建基准系統。 通常,每個窗口計算40個或更多的系數,這些系數可以可視化為頻譜圖。 后者可以解釋為圖像,並且,如果您願意的話,可以對它們進行深度學習(這是一種流行的選擇)。
請注意,“說話者識別”是生物識別的一個完整領域,並且有大量論文討論了良好的方法。
與語音識別相比,說話人識別具有其自身的特定性。 我建議您從一些專用工具包開始。
SPEAR就是這樣一個項目,提供了立即可用的示例。
還有ALIZE ,但從我的角度來看,它有點舊並且使用起來更復雜。
HTK是語音識別軟件,但也可以用於您的任務: htk-speaker-recognition 。 甚至還發表了一篇碩士論文: 使用HTK的說話人識別系統 。
我當時正在構建一個簡單的說話人識別系統,但確實發現,使用HTK構建的非常簡單的GMM-UBM模型可以提供最佳效果。
更新:
我完全忘記了SIDEKIT 。 它是ALIZE的繼任者,是一個很棒的工具包。 我也有一些適用的示例: https : //www.dropbox.com/sh/iwbog5oiqhi2wo3/AACnj1Uhazqb-LQY_ztX66PDa?dl=0
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.