簡體   English   中英

可以添加到 mfcc 功能的說話人識別功能/為了改進我的說話人識別神經網絡我可以做的事情

[英]Features for speaker recognition that can be added to mfcc features/ Things that I can do in order to improve my speaker recognition neural network

我正在嘗試創建說話人識別機器學習。

目前我正在使用以下方案:

  1. 獲取我的音頻文件數據集並計算音頻文件的每 0.15 秒 13 mel 頻率系數
  2. 我將每 13 個系數輸入到一個基於 [conv、pool、norm] 的 3 個塊的神經網絡中
  3. 對於測試文件,我對每 13 個 coeffs 向量的所有輸出使用多數

我通常對 3 個揚聲器的識別率約為 85%,這並不奇怪,因此我決定要添加一些功能,但我不知道要添加什么...

有人建議我應該添加什么功能/我應該怎么做才能增加我的比例?

我嘗試使用一個名為“pitch”的模塊,它為我提供了 wav 文件的音高,但它給了我非常隨機的值(例如,對於同一個揚聲器,它給了我 360、80、440 的 3 個第一個音頻)

非常感謝您的幫助

您應該一次處理更長的塊,在 0.15 秒內識別說話者身份幾乎是不可能的。

一般規則是您處理的音頻越長,您的識別就越准確。 像 1-3 秒這樣的東西很好,你需要將它們作為一個整體輸入到神經網絡中。

你可以在 github 上谷歌搜索 x-vector,有很多實現,例如你可以在 kaldi 中找到一個。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM