簡體 English 中英

可以添加到 mfcc 功能的說話人識別功能/為了改進我的說話人識別神經網絡我可以做的事情

[英]Features for speaker recognition that can be added to mfcc features/ Things that I can do in order to improve my speaker recognition neural network

原文 2020-03-20 12:22:10 8 1 python/ neural-network/ voice-recognition/ mfcc/ pitch

我正在嘗試創建說話人識別機器學習。

目前我正在使用以下方案：

獲取我的音頻文件數據集並計算音頻文件的每 0.15 秒 13 mel 頻率系數
我將每 13 個系數輸入到一個基於 [conv、pool、norm] 的 3 個塊的神經網絡中
對於測試文件，我對每 13 個 coeffs 向量的所有輸出使用多數

我通常對 3 個揚聲器的識別率約為 85%，這並不奇怪，因此我決定要添加一些功能，但我不知道要添加什么...

有人建議我應該添加什么功能/我應該怎么做才能增加我的比例？

我嘗試使用一個名為“pitch”的模塊，它為我提供了 wav 文件的音高，但它給了我非常隨機的值（例如，對於同一個揚聲器，它給了我 360、80、440 的 3 個第一個音頻）

非常感謝您的幫助

1 個解決方案

您應該一次處理更長的塊，在 0.15 秒內識別說話者身份幾乎是不可能的。

一般規則是您處理的音頻越長，您的識別就越准確。 像 1-3 秒這樣的東西很好，你需要將它們作為一個整體輸入到神經網絡中。

你可以在 github 上谷歌搜索 x-vector，有很多實現，例如你可以在 kaldi 中找到一個。

說話者識別API錯誤：“找不到資源或路徑。”

[英]Error with Speaker Recognition API: “Resource or path can't be found.”

使用Python的說話人識別系統

[英]Speaker Recognition System using Python

Python音頻信號分類MFCC具有神經網絡功能

[英]Python audio signal classification MFCC features neural network

使用 Python 語音識別時的說話人分類

[英]Speaker Diarization when using Python Speech Recognition

如何在python中使用azure說話人識別api

[英]how to use azure speaker recognition api in python

多揚聲器音頻的語音識別

[英]Speech recognition for multi-speaker audio

如何提高神經網絡的准確性？

[英]How can I improve the accuracy of my neural network?

如何提高我的簡單神經網絡的速度？

[英]How can I improve the speed of my simple neural network?

該程序可以讀取單個 wav 以進行 MFCC 特征提取，我需要可以讀取多個 wav 並提供 MFCC 特征的程序

[英]This program can read single wav for MFCC feature extraction, i need program that can read multiple wav and gives MFCC features

如何訓練相同特征具有不同標簽的神經網絡？

[英]How can I train Neural network where same features have different labels?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 說話者識別API錯誤：“找不到資源或路徑。” 使用Python的說話人識別系統 Python音頻信號分類MFCC具有神經網絡功能使用 Python 語音識別時的說話人分類如何在python中使用azure說話人識別api 多揚聲器音頻的語音識別如何提高神經網絡的准確性？如何提高我的簡單神經網絡的速度？該程序可以讀取單個 wav 以進行 MFCC 特征提取，我需要可以讀取多個 wav 並提供 MFCC 特征的程序如何訓練相同特征具有不同標簽的神經網絡？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM