是的,我知道语音识别相当复杂(作为轻描淡写)。 我正在寻找的是也许 20-30短语之间的区分方法。 分割单词的能力(离散语音很好)会很好,但不是必需的。 该软件将取决于用户(即由我使用)。 我不是在寻找现有的软件,而是寻找一种自己动手的好方法。 我已经研究了各种现有的方法,似乎将声音分成音素,虽然常见,但对我的需求有些过分。

对于某些上下文,我只是想找到一种方法来通过一些简单的语音命令来控制我的计算机的某些方面。 我知道Windows已经有语音识别软件,但我想把这个作为一个学习练习。 命令很简单,比如“Open Google”或“Mute”。 我的想法(不确定这是一个好主意)是一些命令是复合的。 所以“静音”就是“静音”。 而“打开”命令可以单独识别,然后有后缀(谷歌,Photoshop等)。 被另一个网络/模型/其他人认可。 但我不确定以这种方式寻找前缀/分词是否会产生比处理更多个别命令更好的结果。

我一直在研究感知器,Hopfield网络(尽管它们从我的理解中有点过时)和HMM,虽然我理解这些背后的想法(我之前已经实现了ANN)但我真的不知道哪个是最适合这项任务。 我假设线性矢量量化模型也是合适的,但我真的找不到很多文献。 任何指导/资源将不胜感激。

===============>>#1 票数:2

语音识别中有一些开源项目:

  1. HTK(隐马尔可夫模型工具包)
  2. 狮身人面像

两者都有解码器,培训,语言模型工具包。 Eveything构建一个完整而强大的语音识别器。 Voxforge具有开源语音识别工具包的声学和语言模型。

===============>>#2 票数:2 已采纳

前段时间,我读了一篇关于有限词汇系统的白皮书,该系统使用了简单的识别过程。 系统将每个话语分成少量的箱子(6个时间段,4个量级,如果我没记错的话,总共24个),它所做的就是计算每个箱子中的样本音频测量数量。 存在模糊逻辑规则库,其然后解释每个话语24个bin计数,并生成解释。

我想(对于某些应用程序)一个简单的匹配过程也可以正常工作,其中当前话语的24个bin计数与每个存储的原型的简单匹配,并且总体差异最小的那个是优胜者。

  ask by Robert Mastragostino translate from so

未解决问题?本站智能推荐:

1回复

从头开始简单的语音识别

我发现的与我的问题最相似的问题是这个( 简单的语音识别方法 ),但是由于已经过去了3年,所以我会问的答案还不够。 我想从头开始计算一个简单的语音识别系统,我只需要识别五个单词。 据我所知,此应用程序最常用的音频功能是MFCC和用于分类的HMM。 我可以从音频中提取MFCC,但对于如
2回复

语音识别-HMM方法

理论真的。 我将要开发语音算法,现在我必须以某种方式必须构建HMM(Hidden Markov Model)(隐马尔可夫模型)。它用于概率,并且可以用于语音识别。 好的,所以我从一个网站上找到了这句话: “为词汇表中的每个单词构建一个HMM,然后将电话字符串与每个HMM进行比较,以
1回复

HMM在语音识别中的应用

这是我第一次在这里发布问题,因此,如果这种方法不是很标准,我就道歉,我理解那里有很多问题,并且我已经阅读了大量的论文,问题,手稿和教程,但我似乎有一个问题,最好总是问。 我正在创建一个语音识别应用程序,使用基于高斯混合模型的音素级处理(非孤立单词)连续HMM,涉及baum welch,向前和向
1回复

使用HMM进行语音识别

我正在使用Hmm进行单独单词的语音识别。 我已经为数据库训练了Hmms。 我计算并比较输入音频信号的似然概率。 我遇到的问题是,不同的单词具有不同数量的最佳状态,这将赋予不同数量的搜索路径(搜索路径数量=状态^观测值),因此无法比较概率。 如何标准化不同状态数的影响?
2回复

小词汇的语音识别(约20个单词)

我目前正在为我的大学开展一个项目。 任务是编写语音识别系统,该系统将在后台等待几个命令的手机上运行(如。调用0 123 ......)。 这是2个月的项目,所以它不一定非常准确。 可接受的噪声量可以很小,并且单词将被静音时刻分开。 我目前正在加载以RAW 16位PCM格式编码的样
1回复

如何确定语音识别中HMM的观察序列长度

我正在重新学习如何使用隐马尔可夫模型进行语音识别,我有一个问题。 似乎大多数/所有使用HMM的讨论都考虑了已知观测序列的情况:[O1,O2,O3,...,OT]其中T是一个已知数。 但是,如果我们尝试在语音上实时使用受过训练的HMM,或者在有人逐个说出一句话的WAV文件中使用经过训练的HMM
1回复

语音识别中HMM声学模型的状态数

每个单词的hmm模型是否必须具有相同的编号。 语音识别中的状态?
1回复

基于隐马尔可夫模型的语音识别程序的输入

我将基于隐马尔可夫模型构建语音识别程序。 不幸的是,我不知道如何获得输入声音序列,并且很好地使用它。 谁能告诉我从声音文件格式(例如.wav,.mp3等)读取值并将音轨切成C ++的一般方法是什么?
2回复

Python语音识别器TypeError:“ float”和“ NoneType”的实例之间不支持“>”

我正在使用包含隐马尔可夫模型(HMM)的Python 3.6中的语音识别器代码。 由.wav文件组成的训练数据(输入文件夹)的组织方式为 类似的模式用于test数据文件夹。 该代码从命令提示符运行: 该代码粘贴在下面: 运行上面的代码时出现以下错误:
1回复

HMM与深度学习的语音情感识别(SER)

对于构建语音情感检测和识别系统,哪种方法更好? 隐藏的马尔可夫模型还是深度学习(RNN-LSTM)方法? 我必须构建一个SER系统,而我对两者感到困惑。 如果有比这两个更好的模型,请告诉。