簡體 English 中英

使用開放式耳朵進行語音識別時精度非常低

[英]Very low accuracy while using open ears for speech recognition

原文 2011-09-15 11:51:54 8 1 ios/ speech-recognition/ openears

我在我的應用程序中使用開放式耳朵進行語音識別。 主要關注的是准確性。 在安靜的環境中，准確度大約為50％，但在嘈雜的環境中情況會變得更糟。 幾乎沒有任何東西被正確識別。 我目前正在使用大約300字的字典文件。 我應該尋求哪些方面來提高准確性？ 到目前為止，我還沒有對此做過任何調整。

1 個解決方案

語音識別應用程序的設計要求您了解語音識別背后的一些基本概念，如聲學模型，語法和語音字典。 您可以從CMUSphinx教程http://cmusphinx.sourceforge.net/wiki/tutorial中了解更多信息

准確性差是語音應用程序開發的正常狀態，有一個過程可以用來改進它並使應用程序有用。 該過程如下：

收集您正在嘗試識別的語音樣本，並創建一個語音數據庫來衡量當前的准確性並了解其背后的問題
嘗試使用詞匯量大小，以改善不同語音提示之間的分離。 例如，10個命令的詞匯表比300個命令的詞匯表更容易識別。
設計您的應用程序的方式是識別的變體數量較少，人們的答案很簡單。 這項活動被稱為VUI（語音用戶界面設計），它是一個相當大的領域，有許多精彩的書籍和博客文章。 你可以在這里找到一些細節： http ： //www.amazon.com/Voice-Interface-Design-Michael-Cohen/dp/0321185765
嘗試改善應用程序的聲學部分。 修改字典以匹配您的語音。 調整聲學模型以匹配聲學特性。 有關聲學模型適應過程的描述，請參見http://cmusphinx.sourceforge.net/wiki/tutorialadapt 。