簡體 English 中英

語音識別（使用ML？），而不是語音識別

[英]Voice Recognition (with ML?), not Speech Recognition

原文 2019-01-13 17:12:36 5 3 tensorflow/ machine-learning/ speech-recognition/ voice-recognition/ voice

我正在尋找用於語音識別的示例代碼（不要與語音識別相混淆），即-我需要構建一個可以檢測特定人的語音的模型。

我可能最終會嘗試用我自己的數據調整Tensor Flow“簡單音頻識別” ...這是最好的做法嗎？ 還有其他建議嗎？

3 個解決方案

在很大程度上取決於具體情況。 您將擁有多少培訓樣本？ 您打算認識多少人？ 信噪比是多少？ 系統必須識別多少時間？ 應該有多嚴格？

不過，我已經告訴您，從神經網絡開始是一個糟糕的做法，因為您立即放棄對領域的理解。 與大多數其他學習系統相比，對行為異常的神經網絡進行故障排除要麻煩得多。

我建議您構建自己的功能，而不是一開始就依賴ANN。 現在，我假設您對Python（作為大多數TF用戶）沒問題，並提出以下模塊：

Yaafe
aubio
librosa

作為一種選擇，您可以使用這三個MFCC中的任何一個進行計算，並以此為基礎構建基准系統。 通常，每個窗口計算40個或更多的系數，這些系數可以可視化為頻譜圖。 后者可以解釋為圖像，並且，如果您願意的話，可以對它們進行深度學習（這是一種流行的選擇）。

請注意，“說話者識別”是生物識別的一個完整領域，並且有大量論文討論了良好的方法。

與語音識別相比，說話人識別具有其自身的特定性。 我建議您從一些專用工具包開始。

SPEAR就是這樣一個項目，提供了立即可用的示例。

還有ALIZE ，但從我的角度來看，它有點舊並且使用起來更復雜。

HTK是語音識別軟件，但也可以用於您的任務： htk-speaker-recognition 。 甚至還發表了一篇碩士論文：使用HTK的說話人識別系統。

我當時正在構建一個簡單的說話人識別系統，但確實發現，使用HTK構建的非常簡單的GMM-UBM模型可以提供最佳效果。

更新：

我完全忘記了SIDEKIT 。 它是ALIZE的繼任者，是一個很棒的工具包。 我也有一些適用的示例： https : //www.dropbox.com/sh/iwbog5oiqhi2wo3/AACnj1Uhazqb-LQY_ztX66PDa?dl=0

對於相對易於使用的現代NN實現，您可以嘗試

https://github.com/mravanelli/SincNet

您可以在公共voxceleb數據庫上對其進行訓練，以獲得最佳分離效果。

錄制音頻以進行語音識別

[英]Recording audio for speech recognition

Tensorflow語音識別

[英]Tensorflow Speech Recognition

用於語音識別的 MLP

[英]MLP for speech recognition

語音識別的不同模型

[英]Different model on speech recognition

如何培訓語音識別的lstm

[英]How to train an lstm for speech recognition

語音識別 - 如何將句子拆分為單詞？

[英]Speech Recognition - how to split a sentence into words?

了解Keras中語音識別的CTC丟失

[英]Understanding CTC loss for speech recognition in Keras

使用樣本輸入預測語音識別模型

[英]Predict speech recognition model with an sample input

如何在 LSTM 模型中屏蔽填充以進行語音情感識別

[英]How to mask paddings in LSTM model for speech emotion recognition

Tensorflow Android語音識別示例中的記錄和雙端隊列操作問題

[英]Logging and deque operation problems in Tensorflow Android Speech Recognition Sample

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 錄制音頻以進行語音識別 Tensorflow語音識別用於語音識別的 MLP 語音識別的不同模型如何培訓語音識別的lstm 語音識別 - 如何將句子拆分為單詞？了解Keras中語音識別的CTC丟失使用樣本輸入預測語音識別模型如何在 LSTM 模型中屏蔽填充以進行語音情感識別 Tensorflow Android語音識別示例中的記錄和雙端隊列操作問題

相關標簽

語音識別（使用ML？），而不是語音識別

問題描述

3 個解決方案

解決方案1
1 2019-01-13 22:35:32

解決方案2
1 2019-01-16 12:39:24

解決方案3
0 2019-01-17 23:08:02

語音識別（使用ML？），而不是語音識別

問題描述

3 個解決方案

解決方案1 1 2019-01-13 22:35:32

解決方案2 1 2019-01-16 12:39:24

解決方案3 0 2019-01-17 23:08:02

解決方案1
1 2019-01-13 22:35:32

解決方案2
1 2019-01-16 12:39:24

解決方案3
0 2019-01-17 23:08:02