繁体   English   中英

降低MFCC输出

Reduce MFCC output

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

我正在尝试使用python库分析歌曲音频,输出是一个numpy数组,该数组的大小非常大,因为MFCC是针对音频的每一帧计算的。 当我将此输出写入文件时,每首歌曲的输出约为3-4MB。 有没有一种方法可以将N帧信息减少为单行特征?

单击此处]([![MFCC输出

1 个回复

一种常见的做法是将连续的帧分组到序列窗口中,在每个纹理窗口上计算聚合统计信息,然后使用聚合统计信息再次进行汇总。

统计信息是按输入功能(在您的情况下为MFCC频段)计算的。 统计功能示例为平均值,标准偏差,最小值,最大值。 纹理大小可以在1至60秒之间。

参见低级功能和音色,Juan Pablo Bello,MPATE-GE 2623音乐信息检索

1 了解mfcc的输出

我想获得以下sound.wav文件的MFCC,该文件长48秒 。 我理解data * frame = length of audio. 但是当我如上所示计算MFCC并得到它的形状时,结果如下: (20, 2086) 这些数字代表什么? 如何通过MFCC计算音频的时间? ...

2 了解 MFCC 的输出

我是信号分析的初学者。 我想提取声音的 MFCC,因为我读到 MFCC 是自动语音识别的一个很好的参数。 所以我在RStudio这样尝试: 结果是一个 13*30 的数据帧,我对 MFCC 的输出感到困惑。 我以为 MFCC 是 13 个实际数字,但在这里我得到了一个数据框,数据框是 MFCC ...

3 NVIDIA APEX 使 MFCC 层的输出为 nan

我的环境 操作系统:Linux CUDA:11.1 pytorch:1.8.1 在使用 apex 之前,我的模型工作正常。 但是,应用 apex 后,forward_vid 正常工作但 forward_aud 输出变为 nan。 这是我的代码。 可变音频是一个 FloatTenso ...

5 如何降低spark-submit的输出?

我正在尝试针对bluemix上的spark自动执行spark-submit作业,但是我收到很多输出(例如,文件上传状态)。 对于手动运行spark-submit而言,此详细输出很好,但是如果尝试从另一个脚本执行则只是噪音。 有没有办法使bluemix定制spark-submit脚本的输出 ...

6 MFCC验证

我已经基于实际的加密站点在C中实现了一些代码,以提取MFCC。 有没有一种简单的方法可以验证我的系数值是否正确生成? ...

7 MFCC的含义

我有一个概念上的问题。 我知道什么是梅尔音阶及其代表什么,我知道这种频谱图仍然无法满足我的需求。 我认为,如果要减少频谱图的信息数量,可以使用MFCC。 但是我真的不知道MFCC是什么及其代表什么? 我在语音识别过程中使用了MFCC矩阵,但我不了解该向量内的所有数字代表什么。 ...

8 什么是MFCC值?

所以我知道什么是MFCC(梅尔频率倒谱系数)。 但是我需要了解每个值是什么...它是某种声频值还是什么? 假设我们有这种矩阵。 因此,每一行代表一帧的系数,但是这些数字是多少? 是最高频率还是什么? ...

9 如何合并MFCC

我正在从一些音频文件中提取MFCC功能。 我目前使用的程序为每个文件提取了一系列MFCC,并且其缓冲区大小为1024。在论文中,我看到了以下内容: 通过计算每个特征向量元素的均值和方差(合并),将音频数据中的一秒内提取的特征向量进行组合。 我当前的代码使用TarsosDSP提 ...

10 MFCC怎么办?

我目前正在尝试使用Python通过标准麦克风实现简单的单词识别。 我已经采样了数据,并从音频信号中提取了MFCC矩阵。 但是问题是:我应该使用这些功能来获得语音或识别单词吗? 注意:我要识别的词代表人的专有名称。 提前致谢。 ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2021 STACKOOM.COM