[英]How to train HMM with audio senteces dataset for speech recognition?
我已經閱讀了一些關於HMM和MFCC的期刊和論文,但我仍然對我的數據集(句子數據集的音頻)一步一步的工作方式感到困惑。
我的數據集示例(音頻表單):
我所知道的 :
我的問題:
注意:我正在使用python,我使用hmmlearn和python_speech_features作為我的庫。
從理論上講,你只需要句子和音素。 但是,隔離的單詞可能對您的模型有用(它會增加訓練數據的大小)
您需要音素,否則如果您的模型沒有任何孤立音素的示例,那么您的模型將難以找到正確的音素分段。 您應首先在隔離的音素上訓練您的HMM狀態,然后添加其余數據。 如果你有足夠的數據,你的模型可以在沒有孤立的音素例子的情況下學習,但我不會打敗這個。
構建您的音素示例並使用它們來訓練一個簡單的HMM模型,您不會模擬音素之間的過渡。 一旦你的隱藏狀態有關於音素的一些信息,你可以繼續訓練孤立的單詞和句子。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.