我一直想知道有多少种不同的搜索技术,用于搜索文本,搜索图像甚至视频。

但是,我从未遇到过搜索音频文件内容的解决方案。

例如:假设我有大约200个播客以mp3,wav和ogg文件的形式下载到我的电脑上。 它们都被命名为podcast1.mp3,podcast2.mp3等等。因此,如果没有实际听到内容,就无法知道内容是什么。 让我们说,我有兴趣发现,播客谈论“游戏编程”。 我希望结果显示为:

  • Podcast1.mp3 - 时间索引(s)的3个结果 - 0:16:21,0:43:45,1:12:31
  • Podcast21.ogg - 在时间索引(0) - 0:12:01获得1个结果

所以我的问题:

  • 怎么能解决这个问题呢?
  • 是否有合适的算法开发来做这样的事情?

在我的脑海中出现的一个想法是,可以使用“语音到文本”软件来获取每个音频文件的时间索引的成绩单,然后解析成绩单以获得输出。

我认为这是我的业余爱好项目之一。 谢谢!

===============>>#1 票数:9

如果要在音频流中搜索文本(即所说的内容),则必须使用某种语音识别算法对其进行处理,并将文本存储为与文件关联的元数据。 对于视频,您还可以对视频内的文本进行文本识别。 Evernote已针对图像文件中的文本执行此操作,但据我所知,它不支持音频。

使用音频搜索音频时可能会出现类似情况。 我不知道这些算法的细节,但我猜它们涉及某种频率分析。 Shazam正在使用这种技术来识别基于音频剪辑的歌曲。

以下是一些可能有用的维基百科文章:

  ask by Pascal translate from so

未解决问题?本站智能推荐: