簡體   English   中英

python中語音特征提取(梅爾頻率倒譜系數)

[英]Feature extraction speech (Mel Frequency cepstral coefficient) in python

我目前正在嘗試根據音頻文件對情緒(7 類)進行分類。 我做的第一件事是使用 python_speech_features 庫中的 mfcc function 提取特征( https://python-speech-features.readthedocs.io/en/latest/#functions-provided-in-python-speech-features-模塊)。

在文檔中,它說每一行包含一個特征向量。 問題是每個音頻文件返回不同的行數(特征),因為音頻長度不同。 例如,對於 audio_1,output 的形狀是 (155,13),對於 audio_2,輸出的形狀是 (258,13)。 關於如何使它們具有相同形狀的任何建議? 我目前正在使用 PCA 強制數據具有相同的維度,這是正確的方法嗎?

這就是我提取特征的方式:

sample_rate, data = wavfile.read(path)
mfccExtract = features.mfcc(data, sample_rate, winfunc=np.hamming)

如果您希望每個音頻樣本的長度相同,可以使用 4 種不同的方法:

  1. 零填充

  2. N模數減少

  3. 插補

  4. 動態時間環繞

您可以對每個音頻樣本使用其中任何一種方法。 這些方法可在學術論文中找到。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM