Returnn總機數據處理

Question

誰能給我有關如何處理Switchboard數據集以進行RETURNN培訓的指導嗎？ 我確實看到了BlissDataset類，該類似乎是為配電盤設計的，但是我不清楚在示例中給出的路徑中應該包含什么：

Example:
    ./tools/dump-dataset.py "
      {'class':'BlissDataset',
       'path': '/u/tuske/work/ASR/switchboard/corpus/xml/train.corpus.gz',
       'bpe_file': '/u/zeyer/setups/switchboard/subwords/swb-bpe-codes',
       'vocab_file': '/u/zeyer/setups/switchboard/subwords/swb-vocab'}"

總機數據集有幾個帶有音頻的文件夾，即swb1_d2 / data / *。sph和記錄本swb1_LDC97S62 / swb_ms98_transcriptions / ** / *我不太確定如何進行此操作以獲取可用於訓練RETURNN的數據集。

Answer 1

在我們的小組（亞琛工業大學），我們使用在GitHub上發布的配置。 如您所見，此代碼使用ExternSprintDataset 。 該數據集使用該實現使用Sprint（統稱為RWTH ASR（RASR），請參見此處）作為外部工具（在子流程中運行）來處理數據（功能提取等）。 Sprint獲得了Bliss XML文件，該文件描述了所有片段以及音頻，音頻偏移量和轉錄的路徑，並且還獲得了用於特征提取和其他功能的更多配置。 有一個應該可用的RASR開源版本，但是要使其正常工作可能會涉及一些工作。

計划將BlissDataset替換為更簡單的方法。 但是，實現不完整。 同樣，您仍然需要以某種方式自己生成Bliss XML（我們已經使用了一些內部腳本根據官方LDC數據來准備它們）。

因此，不幸的是，還沒有簡單的方法。 實際上，我認為最簡單的方法是提出另一種自定義格式，該格式可能與LibriSpeechDataset實現類似，或者也許是相同的，然后可以重用LibriSpeechDataset ，或者至少重用LibriSpeechDataset一部分。 該數據集實現采用某種zip格式的數據，其中包含txt文件中的腳本和ogg或wav文件中的音頻。 它使用librosa進行MFCC特征提取（或其他特征類型）。 我計划在Switchboard上實現該功能，然后重現結果，但是我還沒有時間，也不確定何時才能實現。 但是，如果您想自己嘗試一下，我們將竭誠為您服務。 起點是查看LibriSpeechDataset並了解其格式。

Returnn總機數據處理

問題描述

1 個解決方案

解決方案1
0 已采納 2018-12-05 22:15:12

Returnn總機數據處理

問題描述

1 個解決方案

解決方案1 0 已采納 2018-12-05 22:15:12

解決方案1
0 已采納 2018-12-05 22:15:12