我一直想知道有多少种不同的搜索技术,用于搜索文本,搜索图像甚至视频。

但是,我从未遇到过搜索音频文件内容的解决方案。

例如:假设我有大约200个播客以mp3,wav和ogg文件的形式下载到我的电脑上。 它们都被命名为podcast1.mp3,podcast2.mp3等等。因此,如果没有实际听到内容,就无法知道内容是什么。 让我们说,我有兴趣发现,播客谈论“游戏编程”。 我希望结果显示为:

  • Podcast1.mp3 - 时间索引(s)的3个结果 - 0:16:21,0:43:45,1:12:31
  • Podcast21.ogg - 在时间索引(0) - 0:12:01获得1个结果

所以我的问题:

  • 怎么能解决这个问题呢?
  • 是否有合适的算法开发来做这样的事情?

在我的脑海中出现的一个想法是,可以使用“语音到文本”软件来获取每个音频文件的时间索引的成绩单,然后解析成绩单以获得输出。

我认为这是我的业余爱好项目之一。 谢谢!

===============>>#1 票数:9

如果要在音频流中搜索文本(即所说的内容),则必须使用某种语音识别算法对其进行处理,并将文本存储为与文件关联的元数据。 对于视频,您还可以对视频内的文本进行文本识别。 Evernote已针对图像文件中的文本执行此操作,但据我所知,它不支持音频。

使用音频搜索音频时可能会出现类似情况。 我不知道这些算法的细节,但我猜它们涉及某种频率分析。 Shazam正在使用这种技术来识别基于音频剪辑的歌曲。

以下是一些可能有用的维基百科文章:

  ask by Pascal translate from so

未解决问题?本站智能推荐:

1回复

如何在音频文件中打印单词

我做了一个小型应用程序,可以捕获计算机中的声音。 系统的简单过程是,当我播放音乐文件时,它将捕获语音,而当我回放捕获的事物时,它将回放。 总体而言,一切正常。 现在我想做的就是打印回放。 只是假设我捕获了一个诸如“嗨,早上好”之类的声音,现在当我按播放时,它必须以文本形式打印录制的内容。
2回复

如何在python中拆分音频文件

我正致力于客户关怀数据的语音情感分析。 我有一个音频文件,客户服务官员已经问过这个问题,而客户已经给出了他的评论。 我需要分割这个音频,并且只从客户处获得评论部分来进行情绪分析,无论客户是满意,悲伤还是中立。 请让我知道,如何拆分音频文件只获得客户的音频。 音频的格式为“.aac
1回复

自动搜索并剪切mp3音频文件中的每个语音单词

首先,我将大体上说明我要做什么,并寻求建议。 然后,我将解释我的当前方法并要求我解决当前的问题。 问题 我有一个MP3文件,说英语的人是播客中的一个故事。 我想将其分为与单词大致对应的部分。 (我将手动执行此操作,但是我们正在谈论的是我必须剪切或分离的数据小时)。 如果您
4回复

在python中的单词上拆分语音音频文件

我觉得这是一个相当普遍的问题,但我还没有找到合适的答案。 我有许多人类语音的音频文件,我想在单词上打破,这可以通过查看波形中的暂停来启发式地完成,但是有人能指向我自动执行此操作的python中的函数/库吗?
2回复

如何在OS X上获得实时转录(没有音频文件)?

我正在为一个忙于不必要的会议的人开发一个应用程序,这些人需要知道何时有人问他们一个问题。 我的计划是: 将会议的音频(通常从我的扬声器中传出)流式传输到语音到文本程序 将其转化为监视我名字和/或语调的问题 当有人问我问题时,让程序“响”。 然后,我可以快速阅读文
2回复

如何从python中的.wav音频文件中删除/减少噪声

我有一个.wav音频文件,正在将音频转换为文本。 我需要减少/消除噪音以获得更准确的结果。 请让我知道如何去做 出现错误:
1回复

如何从libsndfile库(如MATLAB的audioread)中读取数组格式的音频文件

我正在使用libsndfile读取.caf文件。 我能够正确读取文件,其中包含音频文件中的项目数。 但是,当我将这些数字保存在文本文件中并尝试使用MATLAB验证我的值时,它们看起来有很大不同。 我已经附上了C ++中的代码以及从C ++和MATLAB中获得的值。 } C +
1回复

了解音频文件频谱图值

我目前正在努力了解功率谱如何存储在kaldi框架中。 我似乎已成功使用创建了一些数据文件 这给了我一个大文件,其中包含不同音频文件的数据点,就像这样 。 问题是我不确定如何解释这个数据集,我知道在此之前执行fft,我认为这是一件好事。 上面给出的输出示例来自1秒长的文件
1回复

转换CMU Sphinx 4输入的音频文件

我想使用CMU Sphinx 4来运行识别文件。Sphinx需要以下格式: 16赫兹 16位 单声道 小端 我的文件类似于44100 khz,32位立体声mp3文件。 我尝试使用Tritonus,然后使用其更新版本JavaZoom,以使用来自bakuz
1回复

音频索引:从音频文件生成时间对齐的文本标签

我需要从大量的长音频文件中挑选单词和短语,最终目标是为每个短语的起点和终点生成时间戳。 单词和短语是对事件的描述和简短注释,这些事件需要加上时间标记。 我已经看到了对Google GAudI的引用,但是它已经消失了( link )。 我看过另一种解决方案( Simple Audio Ind