[英]How to find the location of a specific word in an audio file?
我正在开发用于媒体相关工作的android应用程序。 在此应用程序中,我有一个录制的声音文件,它是flac
格式的(您可以忘记格式,我可以将其转换)。 声音文件将在下面播放.....
I am here my friend <silence> just do it soon
现在,如果我只专注于“ friend
”一词。 有什么办法让我找出“ friend
这个词在声音文件中的确切位置? 例如,如果声音文件长10秒,那么它应该告诉我单词“ friend
介于0.2 - 0.4
秒之间或类似的时间。
任何想法?
我使用此Watson api做过类似的应用程序: https : //www.ibm.com/smarterplanet/us/en/ibmwatson/developercloud/doc/speech-to-text/
将声音转换为文本,然后使用json搜索响应。
{
"result_index": 0,
"results": [
{
"final": true,
"alternatives": [
{
"transcript": "hello world",
"confidence": 0.9,
"timestamps": [["hello",0.0,1.2],["world",1.2,2.5]],
"word_confidence": [["hello",0.95],["world",0.866]]
}
]
}
]
}
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.