是的,我知道语音识别相当复杂(作为轻描淡写)。 我正在寻找的是也许 20-30短语之间的区分方法。 分割单词的能力(离散语音很好)会很好,但不是必需的。 该软件将取决于用户(即由我使用)。 我不是在寻找现有的软件,而是寻找一种自己动手的好方法。 我已经研究了各种现有的方法,似乎将声音分成音素,虽然常见,但对我的需求有些过分。

对于某些上下文,我只是想找到一种方法来通过一些简单的语音命令来控制我的计算机的某些方面。 我知道Windows已经有语音识别软件,但我想把这个作为一个学习练习。 命令很简单,比如“Open Google”或“Mute”。 我的想法(不确定这是一个好主意)是一些命令是复合的。 所以“静音”就是“静音”。 而“打开”命令可以单独识别,然后有后缀(谷歌,Photoshop等)。 被另一个网络/模型/其他人认可。 但我不确定以这种方式寻找前缀/分词是否会产生比处理更多个别命令更好的结果。

我一直在研究感知器,Hopfield网络(尽管它们从我的理解中有点过时)和HMM,虽然我理解这些背后的想法(我之前已经实现了ANN)但我真的不知道哪个是最适合这项任务。 我假设线性矢量量化模型也是合适的,但我真的找不到很多文献。 任何指导/资源将不胜感激。

===============>>#1 票数:2

语音识别中有一些开源项目:

  1. HTK(隐马尔可夫模型工具包)
  2. 狮身人面像

两者都有解码器,培训,语言模型工具包。 Eveything构建一个完整而强大的语音识别器。 Voxforge具有开源语音识别工具包的声学和语言模型。

===============>>#2 票数:2 已采纳

前段时间,我读了一篇关于有限词汇系统的白皮书,该系统使用了简单的识别过程。 系统将每个话语分成少量的箱子(6个时间段,4个量级,如果我没记错的话,总共24个),它所做的就是计算每个箱子中的样本音频测量数量。 存在模糊逻辑规则库,其然后解释每个话语24个bin计数,并生成解释。

我想(对于某些应用程序)一个简单的匹配过程也可以正常工作,其中当前话语的24个bin计数与每个存储的原型的简单匹配,并且总体差异最小的那个是优胜者。

  ask by Robert Mastragostino translate from so

未解决问题?本站智能推荐: