python中語音特征提取（梅爾頻率倒譜系數）

Question

我目前正在嘗試根據音頻文件對情緒（7 類）進行分類。 我做的第一件事是使用 python_speech_features 庫中的 mfcc function 提取特征（ https://python-speech-features.readthedocs.io/en/latest/#functions-provided-in-python-speech-features-模塊）。

在文檔中，它說每一行包含一個特征向量。 問題是每個音頻文件返回不同的行數（特征），因為音頻長度不同。 例如，對於 audio_1，output 的形狀是 (155,13)，對於 audio_2，輸出的形狀是 (258,13)。 關於如何使它們具有相同形狀的任何建議？ 我目前正在使用 PCA 強制數據具有相同的維度，這是正確的方法嗎？

這就是我提取特征的方式：

sample_rate, data = wavfile.read(path)
mfccExtract = features.mfcc(data, sample_rate, winfunc=np.hamming)

Answer 1

如果您希望每個音頻樣本的長度相同，可以使用 4 種不同的方法：

零填充
N模數減少
插補
動態時間環繞

您可以對每個音頻樣本使用其中任何一種方法。 這些方法可在學術論文中找到。

python中語音特征提取（梅爾頻率倒譜系數）

問題描述

1 個解決方案

解決方案1
0 2020-11-15 12:25:00

python中語音特征提取（梅爾頻率倒譜系數）

問題描述

1 個解決方案

解決方案1 0 2020-11-15 12:25:00

解決方案1
0 2020-11-15 12:25:00