是的,我知道语音识别相当复杂(作为轻描淡写)。 我正在寻找的是也许 20-30短语之间的区分方法。 分割单词的能力(离散语音很好)会很好,但不是必需的。 该软件将取决于用户(即由我使用)。 我不是在寻找现有的软件,而是寻找一种自己动手的好方法。 我已经研究了各种现有的方法,似乎将声音分成音素,虽然常见,但对我的需求有些过分。
对于某些上下文,我只是想找到一种方法来通过一些简单的语音命令来控制我的计算机的某些方面。 我知道Windows已经有语音识别软件,但我想把这个作为一个学习练习。 命令很简单,比如“Open Google”或“Mute”。 我的想法(不确定这是一个好主意)是一些命令是复合的。 所以“静音”就是“静音”。 而“打开”命令可以单独识别,然后有后缀(谷歌,Photoshop等)。 被另一个网络/模型/其他人认可。 但我不确定以这种方式寻找前缀/分词是否会产生比处理更多个别命令更好的结果。
我一直在研究感知器,Hopfield网络(尽管它们从我的理解中有点过时)和HMM,虽然我理解这些背后的想法(我之前已经实现了ANN)但我真的不知道哪个是最适合这项任务。 我假设线性矢量量化模型也是合适的,但我真的找不到很多文献。 任何指导/资源将不胜感激。