繁体   English   中英

通过iOS上的麦克风输入进行语音活动检测

[英]Voice Activity Detection from mic input on iOS

我正在开发一款基于语音AI的iOS应用; 即,它的目的是从麦克风获取语音输入,将其转换为文本,发送给AI代理,然后通过扬声器输出返回的文本。 尽管使用按钮来开始和停止录制语音(SpeechKit用于语音识别,API.AI用于AI,亚马逊的Polly用于输出),但我已经完成了所有工作。

我需要做的是始终保持麦克风开启,并在用户开始和结束通话时自动开始和停止用户语音的录制。 这款应用是为非传统的环境而开发的,用户将无法访问屏幕(但他们将拥有用于记录其文本的高端shot弹枪麦克风)。

我的研究表明,这一难题被称为“语音活动检测”,似乎是整个基于语音的AI系统中最困难的步骤之一。

我希望有人可以自己提供一些简单的(Swift)代码来实现此目标,也可以指出一些可以在此项目中实现的不错的库/ SDK的方向。

为了实现良好的VAD算法,可以使用py-webrtcvad

它是C代码的Python界面,您可以从项目中导入C文件,然后快速使用它们。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM