繁体   English   中英

什么是MFCC值?

[英]What are MFCC values?

所以我知道什么是MFCC(梅尔频率倒谱系数)。 但是我需要了解每个值是什么...它是某种声频值还是什么?

在此处输入图片说明

假设我们有这种矩阵。 因此,每一行代表一帧的系数,但是这些数字是多少? 是最高频率还是什么?

倒频谱通常通过计算语音帧的(对称)对数功率谱的离散余弦变换来得出; 在这里,对数功率谱[曲线]被视为信号( https://en.wikipedia.org/wiki/Mel-frequency_cepstrum )。 因此,倒频谱系数是序列/曲线(代表对数功率谱)与不同“频率”的余弦波之间相似度的度量。 倒频谱系数捕获该序列的值变化的速率。

第一倒谱系数是对数功率谱与[周期]余弦波的点积,其一个周期从频域的原点(f = 0)开始,并在f = 2 * Pi弧度(或等效地,采样频率)。 插图:元音的对数功率谱在低频区域(f = 0附近)具有高能量,而在高频区域(f = Pi附近)具有低能量。 换句话说,在元音的情况下,在[0,Pi]范围内的对数功率谱曲线的斜率具有负斜率。 由于对数功率谱的这种变化类似于上述余弦波的变化,因此元音语音帧的第一倒频谱系数将具有正值。 相反,诸如/ s /之类的清音摩擦音的倒谱[1]将具有负值,因为其对数功率谱由于低频时的低能量和高频时的高能量以及低频时的大量能量而具有正斜率。由于发声。

类似地,如果在对数功率谱中在f = Pi / 2处有一个主要的谷,倒频谱[2]将为正。 带声音的摩擦音的对数功率谱(例如:/ z /)将接近这种描述,因为由于声音的摩擦性质,在高频处存在大量能量。 当然,倒频谱[0]是对数功率谱值的平均值; 它捕获信号的音量/响度。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM