[英]Features for speaker recognition that can be added to mfcc features/ Things that I can do in order to improve my speaker recognition neural network
我正在嘗試創建說話人識別機器學習。
目前我正在使用以下方案:
我通常對 3 個揚聲器的識別率約為 85%,這並不奇怪,因此我決定要添加一些功能,但我不知道要添加什么...
有人建議我應該添加什么功能/我應該怎么做才能增加我的比例?
我嘗試使用一個名為“pitch”的模塊,它為我提供了 wav 文件的音高,但它給了我非常隨機的值(例如,對於同一個揚聲器,它給了我 360、80、440 的 3 個第一個音頻)
非常感謝您的幫助
您應該一次處理更長的塊,在 0.15 秒內識別說話者身份幾乎是不可能的。
一般規則是您處理的音頻越長,您的識別就越准確。 像 1-3 秒這樣的東西很好,你需要將它們作為一個整體輸入到神經網絡中。
你可以在 github 上谷歌搜索 x-vector,有很多實現,例如你可以在 kaldi 中找到一個。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.