[英]Efficiently generating time index of pre-transcribed speech using it's audio source and open source tools
在TED.com上,他们有转录,单击转录的一部分时,它们会转到视频的相应部分。
我想在具有OSS的Linux上使用80个小时的音频和转录来进行此操作。
这是我在想的方法:
这似乎是一种有效的方法吗? 有人真的这样做过吗?
是否有其他值得尝试的替代方法,例如愚蠢的字数统计可能足够准确?
您只需将所有音频和文本输入一个较长的音频对齐器中,它就会为您提供单词的时间戳。 使用此时间戳,您可以跳至文件中的特定单词。
我不确定为什么要分割音频或做其他事情。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.