簡體   English   中英

使用開放式耳朵進行語音識別時精度非常低

[英]Very low accuracy while using open ears for speech recognition

我在我的應用程序中使用開放式耳朵進行語音識別。 主要關注的是准確性。 在安靜的環境中,准確度大約為50%,但在嘈雜的環境中情況會變得更糟。 幾乎沒有任何東西被正確識別。 我目前正在使用大約300字的字典文件。 我應該尋求哪些方面來提高准確性? 到目前為止,我還沒有對此做過任何調整。

語音識別應用程序的設計要求您了解語音識別背后的一些基本概念,如聲學模型,語法和語音字典。 您可以從CMUSphinx教程http://cmusphinx.sourceforge.net/wiki/tutorial中了解更多信息

准確性差是語音應用程序開發的正常狀態,有一個過程可以用來改進它並使應用程序有用。 該過程如下:

  1. 收集您正在嘗試識別的語音樣本,並創建一個語音數據庫來衡量當前的准確性並了解其背后的問題

  2. 嘗試使用詞匯量大小,以改善不同語音提示之間的分離。 例如,10個命令的詞匯表比300個命令的詞匯表更容易識別。

  3. 設計您的應用程序的方式是識別的變體數量較少,人們的答案很簡單。 這項活動被稱為VUI(語音用戶界面設計),它是一個相當大的領域,有許多精彩的書籍和博客文章。 你可以在這里找到一些細節: http//www.amazon.com/Voice-Interface-Design-Michael-Cohen/dp/0321185765

  4. 嘗試改善應用程序的聲學部分。 修改字典以匹配您的語音。 調整聲學模型以匹配聲學特性。 有關聲學模型適應過程的描述,請參見http://cmusphinx.sourceforge.net/wiki/tutorialadapt

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM