繁体   English   中英

使用其音频源和开源工具有效地生成预转录语音的时间索引

[英]Efficiently generating time index of pre-transcribed speech using it's audio source and open source tools

在TED.com上,他们有转录,单击转录的一部分时,它们会转到视频的相应部分。

我想在具有OSS的Linux上使用80个小时的音频和转录来进行此操作。

这是我在想的方法:

  1. 从30分钟的样本开始
  2. 将音频拆分为2分钟的WAV文件格式的块,即使它会使单词破碎
  3. 在每个块上使用CMU Sphinx的long-audio-aligner运行短语Spotter
  4. 取每个位中找到的已识别单词/短语的时间索引,并计算原始音频文件中ngram的实际估计时间。

这似乎是一种有效的方法吗? 有人真的这样做过吗?

是否有其他值得尝试的替代方法,例如愚蠢的字数统计可能足够准确?

您只需将所有音频和文本输入一个较长的音频对齐器中,它就会为您提供单词的时间戳。 使用此时间戳,您可以跳至文件中的特定单词。

我不确定为什么要分割音频或做其他事情。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM