繁体   English   中英

python中语音特征提取(梅尔频率倒谱系数)

[英]Feature extraction speech (Mel Frequency cepstral coefficient) in python

我目前正在尝试根据音频文件对情绪(7 类)进行分类。 我做的第一件事是使用 python_speech_features 库中的 mfcc function 提取特征( https://python-speech-features.readthedocs.io/en/latest/#functions-provided-in-python-speech-features-模块)。

在文档中,它说每一行包含一个特征向量。 问题是每个音频文件返回不同的行数(特征),因为音频长度不同。 例如,对于 audio_1,output 的形状是 (155,13),对于 audio_2,输出的形状是 (258,13)。 关于如何使它们具有相同形状的任何建议? 我目前正在使用 PCA 强制数据具有相同的维度,这是正确的方法吗?

这就是我提取特征的方式:

sample_rate, data = wavfile.read(path)
mfccExtract = features.mfcc(data, sample_rate, winfunc=np.hamming)

如果您希望每个音频样本的长度相同,可以使用 4 种不同的方法:

  1. 零填充

  2. N模数减少

  3. 插补

  4. 动态时间环绕

您可以对每个音频样本使用其中任何一种方法。 这些方法可在学术论文中找到。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM