繁体   English   中英

识别 iOS 上的特定声音

[英]Identify a specific sound on iOS

我希望能够识别 iOS 应用程序中的特定声音。 我想它基本上会像语音识别一样工作,因为它相当模糊,但它只需要针对 1 个特定的声音。

我已经做了一些快速的 FFT 工作来识别超过某个阈值的特定频率,并且只有当它们是独奏时(即它们没有被其他频率包围),所以我可以很容易地识别单个音调。 我认为这只是一个扩展,但与声音记录的 FFT 数据集相比,并比较音频长度上的 0.1 秒块。 而且我还必须考虑幅度的变化,一点点音调和一点点时间。

谁能指出我可以用来加速这个过程的任何预先存在的来源? 我似乎找不到任何可用的东西。 或者失败了,关于如何开始这样的事情的任何想法?

非常感谢

根据您的描述,您想要做什么并不完全清楚。 “特定”的声音是什么样的? 它有高背景噪音吗? 具体可识别的特征是什么(例如音高、不和谐、音色...)? 您想将它与哪些其他“声音”进行比较? 您是否只想将任意声谱与“模板声音”进行匹配? 你的声音是打击乐、旋律、演讲……吗? 是长是短……? 您期望最佳辨别力的频率范围是多少? 特征是否随时间变化?

没有适用于所有事情的“通用”解决方案。 语音识别本身是相当复杂的,并且不能很好地用于可辨别频率不在例如 MEL 频带中的抽象声音。

因此,总而言之,您留下了太多悬而未决的问题,无法获得有用的答案。 我只能根据少量信息提出以下建议:

For the template sound:
1) Extract spectral peak positions from the power spectrum
2) Measure the standard deviation around the peaks and construct a gaussian from it
3) save the gaussians for later classification

For unkown sounds:
1) Extract spectral peak positions
2) Project those points onto the saved gaussians which leaves you with z-scores of the peak positions
3) With the computed z-scores you should be able to classify your template sound 

注意:这是一种非常粗略的方法,它根据声音最强大的频率来区分声音。 使用高斯,它为最强大的频率的轻微变化留下了空间。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM