簡體   English   中英

如何使用帶有 PyTorch 的 CNN 處理音頻分類的輸入數據?

[英]How to process input data for audio classification using CNN with PyTorch?

作為一名在 DSP 和 ML 領域工作的工程師學生,我正在從事一個音頻分類項目,輸入是貝司、鍵盤、吉他等樂器的短片(4 秒)。(谷歌 Magenta 團隊的 NSynth 數據集) .

這個想法是將所有短片(.wav 文件)轉換為頻譜圖或梅爾頻譜圖,然后應用 CNN 來訓練模型。

但是,我的問題是由於整個數據集很大(大約 23GB),我想知道我是否應該首先將所有音頻文件轉換為 PNG 等圖像,然后應用 CNN。 我覺得這可能需要很多時間,而且它會將我的輸入數據的存儲空間加倍,因為現在它是音頻 + 圖像(可能高達 70GB)。

因此,我想知道這里是否有任何可以加快進程的解決方法。

提前致謝。

預處理是完全值得的。 您很可能最終會在您的網絡按您希望的方式工作之前運行多個實驗,並且您不想每次都浪費時間預處理特征,您想更改一些超參數。

而不是使用PNG,我寧願直接保存PyTorch張量( torch.save使用Python的標准酸洗協議)或與NumPy陣列( numpy.savez節省序列化數組到一個zip文件)。 如果你關心磁盤空間,你可以考慮numpy.save_compressed

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM