繁体 English 中英

API 将语音分解为音素/合成新语音给定语音样本？

[英]API to break voice into phonemes / synthesize new speech given speech samples?

原文 2011-08-11 01:57:33 5 7 api/ audio/ signal-processing/ phoneme

你知道那些技术极客录制某人的声音，然后他们的软件将其分解成音素的电影吗？ 然后他们可以用它来输入任何短语，并使目标看起来好像在说它？

该软件是否存在于 API 版本中？ 我什至不知道谷歌是什么。

7 个解决方案

没有这样的软件。 将任意语音分解为其组成音素只是部分解决的问题：语音转文本软件仍然不完善，文本转语音也是如此。

这个想法是再现目标声音的音色。 即使您能够完美地分割音频，重新排序音素也会产生不自然的节奏和语调的音频，更不用说拼接伪影了。 那时，您将进入平滑、时间缩放和音高校正，所有这些在理论上都是可能的并且很好理解，但是在现实世界的数据上运行不佳，尤其是当所讨论的音频样本很短时单个音素，当需要保留音色时更进一步。

这些问题在语音方面由于重音和周围音素的同位异音变化而更加复杂。 为了忠实地产生低质量的近似音频，您需要详细了解目标的语言、口音和语音模式。

此外，您的最终问题是社会工程之一，当涉及到他们认识的人的声音时，人们不容易被愚弄。 即使有大量的输入数据，充其量只能得到一个简短的低质量样本，不足以进行对话。

因此，虽然这当然是可能的，但这很困难； 即使它存在，也并不总是足够好。

SRI International （为 iOS 创建 Siri 的公司）有一个名为EduSpeak的 SDK ，它将接收音频输入并将其分解为单独的音素。 我知道这一点是因为我大约一周前参加了该产品的演示。 在演示期间，演示者向我们展示了一个使用 SDK 创建的应用程序。 该应用程序提供了几行文本供演示者阅读。 阅读文本后，应用程序会显示一个条形图，其中每个条形代表他演讲中的一个音素。 每个条形的高度代表每个音素发音的好坏得分（演示者不是以英语为母语的人，因此与其他人相比，他在某些音素上的得分较低）。 演示者还可以单击每个单独的条以仅使用原始音频播放该单独的音素。

所以，是的，存在按音素划分音频的软件，它做得很好。 现在，这些音素是否可以重新组合成语音是一个悬而未决的问题。 如果我们最终获得了 SDK 的试用版，我会试用并通知您。

如果你的目标是模仿别人的声音，那么另一种态度是转换你自己的声音（而不是组装音素）。 它（令人惊讶地）称为语音转换，例如http://www.busim.ee.boun.edu.tr/~speech/projects/Voice_Conversion.htm

该技术被称为“语音合成”和“语音识别”

java API 可以在这里找到Java 语音 JSAPI

苹果有一个 API 用于这个苹果演讲

微软有几个……这里讨论一个Vista 演讲

我不知道商业上可用的解决方案，但这个概念并非完全超出了可能性范围。 例如，特拉华大学有相当不错的软件可以做到这一点。

http://www.modeltalker.com

Lyrebird是一家致力于解决这个问题的初创公司。 给定一个人的声音样本和一些书面文本，它可以在样本中的人的声音中合成该书面文本的口语版本。

您可以通过共振峰感知音高转换获得有趣的语音变形效果。 Adobe Audition 有一个非常好的实现。 Antares 产生了一些有趣的人声效果 VST 插件。

这些技术使用某种形式的线性预测编码(LPC) 将语音视为源滤波器 model。 LPC 通过估计声道的共振（共振峰）来处理语音信号，使用逆滤波器反转其效果，然后对生成的残余信号进行编码。 残余信号理想地是代表声门脉冲的脉冲序列。 这允许独立地缩放音高和共振峰，这导致比简单的音高转换更好的性别转换结果。