繁体   English   中英

如何在音频文件中找到特定单词的位置?

[英]How to find the location of a specific word in an audio file?

我正在开发用于媒体相关工作的android应用程序。 在此应用程序中,我有一个录制的声音文件,它是flac格式的(您可以忘记格式,我可以将其转换)。 声音文件将在下面播放.....

I am here my friend <silence> just do it soon

现在,如果我只专注于“ friend ”一词。 有什么办法让我找出“ friend这个词在声音文件中的确切位置? 例如,如果声音文件长10秒,那么它应该告诉我单词“ friend介于0.2 - 0.4秒之间或类似的时间。

任何想法?

我使用此Watson api做过类似的应用程序: https : //www.ibm.com/smarterplanet/us/en/ibmwatson/developercloud/doc/speech-to-text/

将声音转换为文本,然后使用json搜索响应。

    {
  "result_index": 0,
  "results": [
    {
      "final": true,
      "alternatives": [
        {
          "transcript": "hello world",
          "confidence": 0.9,
          "timestamps": [["hello",0.0,1.2],["world",1.2,2.5]],
          "word_confidence": [["hello",0.95],["world",0.866]]
        }
      ]
    }
  ]
}

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM