繁体   English   中英

是否有任何信号处理算法可以逆向设计声波是如何通过人类的声音系统产生的?

[英]Is there any signal-processing algorithm that could reverse-engineer how the sound wave was produced through the vocal system of group of humans?

有长扬声器带有3个扬声器,如何获取有关mouthes打开/关闭的信息? 我们有录音,有多个扬声器。 声音清晰,不需要降噪。 我们想创建一些说3d头的动画。 一般我们想从声音数据mouthes运动中找出。

真的,我们通过一些默认动画以某种方式移动3D头。 就像我们为每个人准备O声音的动画一样,我们需要一些信息:哪个人产生哪个声音毫秒?

所以它就像是语音到文字,但对于声音和一个人在一次录音中。

头上的图像

通常(完美的情况)我们想要获得关于D9,D6,D5点对的运动的一些信号。 来自不止一位发言者,当然还有英语。

有没有关于算法或开源库的论文?

到目前为止,我找到了一些库

http://freespeech.sourceforge.net/ http://cmusphinx.sourceforge.net/

但是我从来没有用过任何一个......

有趣的问题!! 我想到的第一件事就是使用运动检测来识别D5,D6和D9区域的任何运动。 将D5,D6,D9扩展为矩形,并使用此处提到的方法之一来检测这些reigons中的运动。

当然,在开始监视任何动作之前,您必须首先识别一个人的脸部以及区域中的区域D5,D6,D9。

您可以使用语音识别库并检测音频流中的音素以及运动,并尝试将运动特征(如区域,强度和频率等)映射到音素,并构建将嘴部运动映射到音素的概率模型。

真有趣的问题!! 我希望我目前正在做一些有趣的事:)。

希望我在这里提到一些有用的东西。

这是“鸡尾酒会问题”或其概括,“ 盲信号分离 ”的一个例子。

不幸的是,虽然如果你有N个麦克风录制N个扬声器,但是存在良好的算法,但是使用比麦克风更少的麦克风的盲算法的性能非常糟糕。 所以那些帮助不大。

我知道没有特别强大的方法(当然不像五年前那样),即使有额外的数据也能将扬声器分开。 可以在人类注释的语音谱图上训练分类器,以便它可以选择谁是谁,然后可能使用与说话者无关的语音识别来试图找出所说的内容,然后使用3D说话模型用于高端视频游戏或电影特效。 但它不会很好。

你最好雇用三个演员来听录音带,然后每个人在录制时都会背诵其中一个演讲者。 只需更少的时间,精力和金钱,您将获得更逼真的外观。 如果您想拥有各种3D角色,请在演员的脸上放置标记并捕捉其位置,然后将其用作3D模型上的控制点。

我认为您正在寻找所谓的“盲信号分离”。 一篇调查这篇文章的学术论文是:

盲信号分离:统计原理 (pdf)

Jean-FrançoisCardoso,CNRS和ENST

摘要 - 盲信号分离(BSS)和独立分量分析(ICA)是阵列处理和数据分析的新兴技术,旨在从观察到的混合物(通常是传感器阵列的输出)中恢复未观测到的信号或“源”,利用只假设信号之间相互独立。 这些假设的弱点使其成为一种强有力的方法,但需要超越熟悉的二阶统计量。 本文的目的是回顾最近为解决这一令人兴奋的问题而开发的一些方法,以展示它们如何源于基本原则以及它们如何相互关联。

我不知道你要做的是多么实际,或者如果可行的话,它可能需要做多少工作。

大约15年前从爱丁堡大学出来的一些工作(可能是我们所拥有的语音识别的基础)是适用的。 他们能够自动将任何可理解的英语演讲(没有训练的节目)变成一组约40个符号,每个符号用于我们使用的每个不同的声音。 这种能力结合波形特征分析来识别感兴趣的人是你需要的“全部”。

这肯定是一个工程问题。 但不是适合Stack Overflow的编程问题。 我期待着它的那一天。 :-)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM