簡體   English   中英

Returnn總機數據處理

[英]Returnn Switchboard data processing

誰能給我有關如何處理Switchboard數據集以進行RETURNN培訓的指導嗎? 我確實看到了BlissDataset類,該類似乎是為配電盤設計的,但是我不清楚在示例中給出的路徑中應該包含什么:

Example:
    ./tools/dump-dataset.py "
      {'class':'BlissDataset',
       'path': '/u/tuske/work/ASR/switchboard/corpus/xml/train.corpus.gz',
       'bpe_file': '/u/zeyer/setups/switchboard/subwords/swb-bpe-codes',
       'vocab_file': '/u/zeyer/setups/switchboard/subwords/swb-vocab'}"

總機數據集有幾個帶有音頻的文件夾,即swb1_d2 / data / *。sph和記錄本swb1_LDC97S62 / swb_ms98_transcriptions / ** / *我不太確定如何進行此操作以獲取可用於訓練RETURNN的數據集。

在我們的小組(亞琛工業大學),我們使用在GitHub上發布的配置。 如您所見,此代碼使用ExternSprintDataset 該數據集使用該實現使用Sprint(統稱為RWTH ASR(RASR),請參見此處 )作為外部工具(在子流程中運行)來處理數據(功能提取等)。 Sprint獲得了Bliss XML文件,該文件描述了所有片段以及音頻,音頻偏移量和轉錄的路徑,並且還獲得了用於特征提取和其他功能的更多配置。 有一個應該可用的RASR開源版本,但是要使其正常工作可能會涉及一些工作。

計划將BlissDataset替換為更簡單的方法。 但是,實現不完整。 同樣,您仍然需要以某種方式自己生成Bliss XML(我們已經使用了一些內部腳本根據官方LDC數據來准備它們)。

因此,不幸的是,還沒有簡單的方法。 實際上,我認為最簡單的方法是提出另一種自定義格式,該格式可能與LibriSpeechDataset實現類似,或者也許是相同的,然后可以重用LibriSpeechDataset ,或者至少重用LibriSpeechDataset一部分。 該數據集實現采用某種zip格式的數據,其中包含txt文件中的腳本和ogg或wav文件中的音頻。 它使用librosa進行MFCC特征提取(或其他特征類型)。 我計划在Switchboard上實現該功能,然后重現結果,但是我還沒有時間,也不確定何時才能實現。 但是,如果您想自己嘗試一下,我們將竭誠為您服務。 起點是查看LibriSpeechDataset並了解其格式。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM