簡體 English 中英

如何用語音識別數據集訓練HMM進行語音識別？

[英]How to train HMM with audio senteces dataset for speech recognition?

原文 2018-07-04 03:22:09 7 1 python/ tensorflow/ speech-recognition/ mfcc/ hmmlearn

我已經閱讀了一些關於HMM和MFCC的期刊和論文，但我仍然對我的數據集（句子數據集的音頻）一步一步的工作方式感到困惑。

我的數據集示例（音頻表單）：

你好，早上好
祝你考試好運
約343個音頻數據和20個揚聲器（6800個音頻數據）

我所知道的：

我的句子數據集用於獲得轉換概率
嗯狀態是音素
39 MFCC功能用於訓練HMM模型

我的問題：

我是否需要將句子剪切成單詞或僅使用句子來訓練HMM模型？
我需要火車的音素數據集嗎？ 如果是，我是否需要訓練它也使用HMM？ 如果不是我的程序如何識別HMM預測輸入的音素？
我必須先做什么步驟？

注意：我正在使用python，我使用hmmlearn和python_speech_features作為我的庫。

1 個解決方案

我是否需要將句子剪切成單詞或僅使用句子來訓練HMM模型？

從理論上講，你只需要句子和音素。 但是，隔離的單詞可能對您的模型有用（它會增加訓練數據的大小）

我需要火車的音素數據集嗎？ 如果是，我是否需要訓練它也使用HMM？ 如果不是我的程序如何識別HMM預測輸入的音素？

您需要音素，否則如果您的模型沒有任何孤立音素的示例，那么您的模型將難以找到正確的音素分段。 您應首先在隔離的音素上訓練您的HMM狀態，然后添加其余數據。 如果你有足夠的數據，你的模型可以在沒有孤立的音素例子的情況下學習，但我不會打敗這個。

我必須先做什么步驟？

構建您的音素示例並使用它們來訓練一個簡單的HMM模型，您不會模擬音素之間的過渡。 一旦你的隱藏狀態有關於音素的一些信息，你可以繼續訓練孤立的單詞和句子。

如何使用 MFCC 特征訓練用於語音識別的 NN

[英]How to train a NN for speech recognition with MFCCs features

如何在wit.ai中發送分塊的音頻數據進行語音識別？

[英]how to send chunked audio data for speech recognition in wit.ai?

訓練python中特定單詞的語音識別

[英]Train speech recognition for specific words in python

為語音識別庫啟用音頻輸入

[英]Enabling Audio Input for Speech Recognition Library

音頻流 Python 上的 Google 流語音識別

[英]Google Streaming Speech Recognition on an Audio Stream Python

多揚聲器音頻的語音識別

[英]Speech recognition for multi-speaker audio

如何使用python連續識別不斷增加的音頻文件的語音？

[英]How to continuously do speech recognition of a continuously increasing audio file using python?

如何使用谷歌語音識別進行實時語音識別

[英]How to perform realtime speech recognition using google speech recognition

python中谷歌語音識別的“音頻數據必須是音頻數據”錯誤

[英]'Audio data must be audio data' error with google speech recognition in python

使用語音識別在Python中將音頻Blob轉換為文本

[英]Converting Audio Blob to text in Python using Speech recognition

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何使用 MFCC 特征訓練用於語音識別的 NN 如何在wit.ai中發送分塊的音頻數據進行語音識別？訓練python中特定單詞的語音識別為語音識別庫啟用音頻輸入音頻流 Python 上的 Google 流語音識別多揚聲器音頻的語音識別如何使用python連續識別不斷增加的音頻文件的語音？如何使用谷歌語音識別進行實時語音識別 python中谷歌語音識別的“音頻數據必須是音頻數據”錯誤使用語音識別在Python中將音頻Blob轉換為文本

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM