[英]How to deal with different audio formats for audio classification?
我正在研究音頻分類問題陳述以在兩個音頻類之間進行分類。 我從jotform收集了樣本,他們為 collect.wav 音頻提供了音頻小部件,但結果證明小部件以.mp3 格式存儲數據:
在我的問題陳述中,分類類來自不同的格式:
class A : all the 100 samples are in .mp3 format ( jot form collection )
class B : all the samples are in .wav format
我在這里添加兩種類型的類的示例:
Class 示例音頻:它是 in.wav 格式
細節:
General
Complete name : count_class_1.wav
Format : Wave
File size : 1.41 MiB
Duration : 15 s 445 ms
Overall bit rate mode : Constant
Overall bit rate : 768 kb/s
Audio
Format : PCM
Format settings : Little / Signed
Codec ID : 1
Duration : 15 s 445 ms
Bit rate mode : Constant
Bit rate : 768 kb/s
Channel(s) : 1 channel
Sampling rate : 48.0 kHz
Bit depth : 16 bits
Stream size : 1.41 MiB (100%)
Class B 示例音頻Jotform 說它是.wav 格式,但只有擴展名是.wav,文件是.mp3 格式。
細節:
General
Complete name : count.wav
Format : MPEG Audio
File size : 183 KiB
Duration : 9 s 360 ms
Overall bit rate mode : Constant
Overall bit rate : 160 kb/s
Writing library : LAME3.99.5
FileExtension_Invalid : m1a mpa mpa1 mp1 m2a mpa2 mp2 mp3
Audio
Format : MPEG Audio
Format version : Version 1
Format profile : Layer 3
Format settings : Joint stereo / MS Stereo
Duration : 9 s 360 ms
Bit rate mode : Constant
Bit rate : 160 kb/s
Channel(s) : 2 channels
Sampling rate : 48.0 kHz
Frame rate : 41.667 FPS (1152 SPF)
Compression mode : Lossy
Stream size : 183 KiB (100%)
Writing library : LAME3.99.5
在將其輸入神經網絡之前我在做什么:
現在,從每個幀中提取各種特征,包括 MFCC、過零率 (ZCR)、共振峰(前 4 個)等,最后將所有這些特征饋送到簡單的密集層神經網絡或 CNN(頻譜圖格式)。
但問題是兩個類的音頻文件格式不同 class A 音頻樣本在.wav 中,class B 音頻樣本在.mp3 中,網絡很可能會偏向格式或音頻編碼。
我想到的解決方案:
我的疑問是,如果我將兩類音頻樣本(.wav 和 mp3 兩者)都下采樣到 16kHz,我的神經網絡仍然會存在格式偏差嗎?
當音頻文件采用不同格式時,對我來說什么是音頻分類的好策略?
僅從 MP3 轉換為線性 PCM 並不會消除神經網絡可能“學習”到的編碼偽影。 由於 MP3 是有問題的有損格式,自然的方法是將相同的編解碼器應用於您的 WAVE 16 位線性 PCM 文件,並使用 MP3 中編碼解碼的兩個類。
但是,編解碼器本身可能不是您的類的唯一意外鑒別器。 除了從 jotform 仔細檢查音頻捕獲實現之外,您還可以應用像audiomentations項目中可用的數據增強技術。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.