簡體   English   中英

語音識別(使用ML?),而不是語音識別

[英]Voice Recognition (with ML?), not Speech Recognition

我正在尋找用於語音識別的示例代碼(不要與語音識別相混淆),即-我需要構建一個可以檢測特定人的語音的模型。

我可能最終會嘗試用我自己的數據調整Tensor Flow“簡單音頻識別” ...這是最好的做法嗎? 還有其他建議嗎?

在很大程度上取決於具體情況。 您將擁有多少培訓樣本? 您打算認識多少人? 信噪比是多少? 系統必須識別多少時間? 應該有多嚴格?

不過,我已經告訴您,從神經網絡開始是一個糟糕的做法,因為您立即放棄對領域的理解。 與大多數其他學習系統相比,對行為異常的神經網絡進行故障排除要麻煩得多。

我建議您構建自己的功能,而不是一開始就依賴ANN。 現在,我假設您對Python(作為大多數TF用戶)沒問題,並提出以下模塊:

作為一種選擇,您可以使用這三個MFCC中的任何一個進行計算,並以此為基礎構建基准系統。 通常,每個窗口計算40個或更多的系數,這些系數可以可視化為頻譜圖。 后者可以解釋為圖像,並且,如果您願意的話,可以對它們進行深度學習(這是一種流行的選擇)。

請注意,“說話者識別”是生物識別的一個完整領域,並且有大量論文討論了良好的方法。

與語音識別相比,說話人識別具有其自身的特定性。 我建議您從一些專用工具包開始。

SPEAR就是這樣一個項目,提供了立即可用的示例。

還有ALIZE ,但從我的角度來看,它有點舊並且使用起來更復雜。

HTK是語音識別軟件,但也可以用於您的任務: htk-speaker-recognition 甚至還發表了一篇碩士論文: 使用HTK的說話人識別系統

我當時正在構建一個簡單的說話人識別系統,但確實發現,使用HTK構建的非常簡單的GMM-UBM模型可以提供最佳效果。

更新:

我完全忘記了SIDEKIT 它是ALIZE的繼任者,是一個很棒的工具包。 我也有一些適用的示例: https : //www.dropbox.com/sh/iwbog5oiqhi2wo3/AACnj1Uhazqb-LQY_ztX66PDa?dl=0

對於相對易於使用的現代NN實現,您可以嘗試

https://github.com/mravanelli/SincNet

您可以在公共voxceleb數據庫上對其進行訓練,以獲得最佳分離效果。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM