簡體   English   中英

如何處理不同的音頻格式進行音頻分類?

[英]How to deal with different audio formats for audio classification?

我正在研究音頻分類問題陳述以在兩個音頻類之間進行分類。 我從jotform收集了樣本,他們為 collect.wav 音頻提供了音頻小部件,但結果證明小部件以.mp3 格式存儲數據:

在我的問題陳述中,分類類來自不同的格式:

class A : all the 100 samples are in .mp3 format ( jot form collection )
class B : all the samples are in .wav format

我在這里添加兩種類型的類的示例:

Class 示例音頻:它是 in.wav 格式

細節:

General
Complete name                            : count_class_1.wav
Format                                   : Wave
File size                                : 1.41 MiB
Duration                                 : 15 s 445 ms
Overall bit rate mode                    : Constant
Overall bit rate                         : 768 kb/s

Audio
Format                                   : PCM
Format settings                          : Little / Signed
Codec ID                                 : 1
Duration                                 : 15 s 445 ms
Bit rate mode                            : Constant
Bit rate                                 : 768 kb/s
Channel(s)                               : 1 channel
Sampling rate                            : 48.0 kHz
Bit depth                                : 16 bits
Stream size                              : 1.41 MiB (100%)

Class B 示例音頻Jotform 說它是.wav 格式,但只有擴展名是.wav,文件是.mp3 格式。

細節:

General
Complete name                            : count.wav
Format                                   : MPEG Audio
File size                                : 183 KiB
Duration                                 : 9 s 360 ms
Overall bit rate mode                    : Constant
Overall bit rate                         : 160 kb/s
Writing library                          : LAME3.99.5
FileExtension_Invalid                    : m1a mpa mpa1 mp1 m2a mpa2 mp2 mp3

Audio
Format                                   : MPEG Audio
Format version                           : Version 1
Format profile                           : Layer 3
Format settings                          : Joint stereo / MS Stereo
Duration                                 : 9 s 360 ms
Bit rate mode                            : Constant
Bit rate                                 : 160 kb/s
Channel(s)                               : 2 channels
Sampling rate                            : 48.0 kHz
Frame rate                               : 41.667 FPS (1152 SPF)
Compression mode                         : Lossy
Stream size                              : 183 KiB (100%)
Writing library                          : LAME3.99.5

在將其輸入神經網絡之前我在做什么:

  1. 下采樣到 16kHz,信號電平被歸一化
  2. 通過去除信號中的靜音,在音頻段中進行分段
  3. 高濾波(預加重濾波器)。 然后將音頻片段划分為 25 毫秒的非重疊漢明窗幀。

現在,從每個幀中提取各種特征,包括 MFCC、過零率 (ZCR)、共振峰(前 4 個)等,最后將所有這些特征饋送到簡單的密集層神經網絡或 CNN(頻譜圖格式)。

但問題是兩個類的音頻文件格式不同 class A 音頻樣本在.wav 中,class B 音頻樣本在.mp3 中,網絡很可能會偏向格式或音頻編碼。

我想到的解決方案:

  1. 將所有文件降級到 16kHz 頻率(但格式問題仍然存在)
  2. 或將所有文件轉換為一種通用格式,例如我將所有.mp3 文件轉換為.wav 文件然后所有文件將具有相同的格式,我可以將一種轉換為另一種,但我擔心轉換后的文件會丟失質量.

我的疑問是,如果我將兩類音頻樣本(.wav 和 mp3 兩者)都下采樣到 16kHz,我的神經網絡仍然會存在格式偏差嗎?

當音頻文件采用不同格式時,對我來說什么是音頻分類的好策略?

僅從 MP3 轉換為線性 PCM 並不會消除神經網絡可能“學習”到的編碼偽影。 由於 MP3 是有問題的有損格式,自然的方法是將相同的編解碼器應用於您的 WAVE 16 位線性 PCM 文件,並使用 MP3 中編碼解碼的兩個類。

但是,編解碼器本身可能不是您的類的唯一意外鑒別器。 除了從 jotform 仔細檢查音頻捕獲實現之外,您還可以應用像audiomentations項目中可用的數據增強技術。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM