繁体 English 中英

识别 iOS 上的特定声音

[英]Identify a specific sound on iOS

原文 2011-06-01 16:24:28 4 1 ios/ audio/ fft

我希望能够识别 iOS 应用程序中的特定声音。 我想它基本上会像语音识别一样工作，因为它相当模糊，但它只需要针对 1 个特定的声音。

我已经做了一些快速的 FFT 工作来识别超过某个阈值的特定频率，并且只有当它们是独奏时（即它们没有被其他频率包围），所以我可以很容易地识别单个音调。 我认为这只是一个扩展，但与声音记录的 FFT 数据集相比，并比较音频长度上的 0.1 秒块。 而且我还必须考虑幅度的变化，一点点音调和一点点时间。

谁能指出我可以用来加速这个过程的任何预先存在的来源？ 我似乎找不到任何可用的东西。 或者失败了，关于如何开始这样的事情的任何想法？

非常感谢

1 个解决方案

根据您的描述，您想要做什么并不完全清楚。 “特定”的声音是什么样的？ 它有高背景噪音吗？ 具体可识别的特征是什么（例如音高、不和谐、音色...）？ 您想将它与哪些其他“声音”进行比较？ 您是否只想将任意声谱与“模板声音”进行匹配？ 你的声音是打击乐、旋律、演讲……吗？ 是长是短……？ 您期望最佳辨别力的频率范围是多少？ 特征是否随时间变化？

没有适用于所有事情的“通用”解决方案。 语音识别本身是相当复杂的，并且不能很好地用于可辨别频率不在例如 MEL 频带中的抽象声音。

因此，总而言之，您留下了太多悬而未决的问题，无法获得有用的答案。 我只能根据少量信息提出以下建议：

For the template sound:
1) Extract spectral peak positions from the power spectrum
2) Measure the standard deviation around the peaks and construct a gaussian from it
3) save the gaussians for later classification

For unkown sounds:
1) Extract spectral peak positions
2) Project those points onto the saved gaussians which leaves you with z-scores of the peak positions
3) With the computed z-scores you should be able to classify your template sound

注意：这是一种非常粗略的方法，它根据声音最强大的频率来区分声音。 使用高斯，它为最强大的频率的轻微变化留下了空间。