[英]Feature extraction speech (Mel Frequency cepstral coefficient) in python
我目前正在嘗試根據音頻文件對情緒(7 類)進行分類。 我做的第一件事是使用 python_speech_features 庫中的 mfcc function 提取特征( https://python-speech-features.readthedocs.io/en/latest/#functions-provided-in-python-speech-features-模塊)。
在文檔中,它說每一行包含一個特征向量。 問題是每個音頻文件返回不同的行數(特征),因為音頻長度不同。 例如,對於 audio_1,output 的形狀是 (155,13),對於 audio_2,輸出的形狀是 (258,13)。 關於如何使它們具有相同形狀的任何建議? 我目前正在使用 PCA 強制數據具有相同的維度,這是正確的方法嗎?
這就是我提取特征的方式:
sample_rate, data = wavfile.read(path)
mfccExtract = features.mfcc(data, sample_rate, winfunc=np.hamming)
如果您希望每個音頻樣本的長度相同,可以使用 4 種不同的方法:
零填充
N模數減少
插補
動態時間環繞
您可以對每個音頻樣本使用其中任何一種方法。 這些方法可在學術論文中找到。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.