如何處理不同的音頻格式進行音頻分類？

Question

我正在研究音頻分類問題陳述以在兩個音頻類之間進行分類。 我從jotform收集了樣本，他們為 collect.wav 音頻提供了音頻小部件，但結果證明小部件以.mp3 格式存儲數據：

在我的問題陳述中，分類類來自不同的格式：

class A : all the 100 samples are in .mp3 format ( jot form collection )
class B : all the samples are in .wav format

我在這里添加兩種類型的類的示例：

Class 示例音頻：它是 in.wav 格式

細節：

General
Complete name                            : count_class_1.wav
Format                                   : Wave
File size                                : 1.41 MiB
Duration                                 : 15 s 445 ms
Overall bit rate mode                    : Constant
Overall bit rate                         : 768 kb/s

Audio
Format                                   : PCM
Format settings                          : Little / Signed
Codec ID                                 : 1
Duration                                 : 15 s 445 ms
Bit rate mode                            : Constant
Bit rate                                 : 768 kb/s
Channel(s)                               : 1 channel
Sampling rate                            : 48.0 kHz
Bit depth                                : 16 bits
Stream size                              : 1.41 MiB (100%)

Class B 示例音頻Jotform 說它是.wav 格式，但只有擴展名是.wav，文件是.mp3 格式。

細節：

General
Complete name                            : count.wav
Format                                   : MPEG Audio
File size                                : 183 KiB
Duration                                 : 9 s 360 ms
Overall bit rate mode                    : Constant
Overall bit rate                         : 160 kb/s
Writing library                          : LAME3.99.5
FileExtension_Invalid                    : m1a mpa mpa1 mp1 m2a mpa2 mp2 mp3

Audio
Format                                   : MPEG Audio
Format version                           : Version 1
Format profile                           : Layer 3
Format settings                          : Joint stereo / MS Stereo
Duration                                 : 9 s 360 ms
Bit rate mode                            : Constant
Bit rate                                 : 160 kb/s
Channel(s)                               : 2 channels
Sampling rate                            : 48.0 kHz
Frame rate                               : 41.667 FPS (1152 SPF)
Compression mode                         : Lossy
Stream size                              : 183 KiB (100%)
Writing library                          : LAME3.99.5

在將其輸入神經網絡之前我在做什么：

下采樣到 16kHz，信號電平被歸一化
通過去除信號中的靜音，在音頻段中進行分段
高濾波（預加重濾波器）。 然后將音頻片段划分為 25 毫秒的非重疊漢明窗幀。

現在，從每個幀中提取各種特征，包括 MFCC、過零率 (ZCR)、共振峰（前 4 個）等，最后將所有這些特征饋送到簡單的密集層神經網絡或 CNN（頻譜圖格式）。

但問題是兩個類的音頻文件格式不同 class A 音頻樣本在.wav 中，class B 音頻樣本在.mp3 中，網絡很可能會偏向格式或音頻編碼。

我想到的解決方案：

將所有文件降級到 16kHz 頻率（但格式問題仍然存在）
或將所有文件轉換為一種通用格式，例如我將所有.mp3 文件轉換為.wav 文件然后所有文件將具有相同的格式，我可以將一種轉換為另一種，但我擔心轉換后的文件會丟失質量.

我的疑問是，如果我將兩類音頻樣本（.wav 和 mp3 兩者）都下采樣到 16kHz，我的神經網絡仍然會存在格式偏差嗎？

當音頻文件采用不同格式時，對我來說什么是音頻分類的好策略？

Answer 1

僅從 MP3 轉換為線性 PCM 並不會消除神經網絡可能“學習”到的編碼偽影。 由於 MP3 是有問題的有損格式，自然的方法是將相同的編解碼器應用於您的 WAVE 16 位線性 PCM 文件，並使用 MP3 中編碼解碼的兩個類。

但是，編解碼器本身可能不是您的類的唯一意外鑒別器。 除了從 jotform 仔細檢查音頻捕獲實現之外，您還可以應用像audiomentations項目中可用的數據增強技術。

如何處理不同的音頻格式進行音頻分類？

問題描述

1 個解決方案

解決方案1
1 2020-06-29 19:57:36

如何處理不同的音頻格式進行音頻分類？

問題描述

1 個解決方案

解決方案1 1 2020-06-29 19:57:36

解決方案1
1 2020-06-29 19:57:36