标签[mfcc] - 堆栈内存溢出

为 python 中的每个 MFCC 系数生成直方图 plot - Generate histogram plot for each MFCC coefficient in python

如何在python中为从音频文件中提取的每个MFCC系数生成直方图 plot。如从Matlab实现中所示，可以得出每个 MFCC 系数的直方图：我如何 go 在 python 中实现相同的python ？我使用librosa作为 MFCC 特征提取。这是我的 MFCC 特征提取代码： ...

规范化 MFCC - Normalizing the MFCC

我是否需要从 librosa 库中获取归一化的 mel 谱图，或者我不需要对其进行归一化并且应该为 CNN 模型做好准备？我在没有对 mel Spectogram 的值进行归一化的情况下尝试了它，它工作得很好。但是，训练时间很慢。我想知道在继续建模之前是否应该先对其进行标准化。这是我获取 ...

torchaudio mfcc 设置太高 n_mels - torchaudio mfcc set too high n_mels

我目前正在研究 pytorch 用于语音识别 model。当我使用torchaudio.transforms.MFCC(sample_rate=16000, n_mfcc=40)进行数据预处理时，会出现警告说 n_mels(128) 设置得太高或 n_freqs(201) 太低。当然这只是一个 ...

使用多个命令行参数值运行 python 脚本 - Running python script with multiple values of command line arguments

我有一个用于预处理音频的 python 脚本，它具有帧长度、帧步长和 fft 长度作为命令行参数。如果我有这些参数的单个值，我可以运行代码。我想知道是否有一种方法可以运行具有多个参数值的 python 脚本？例如，如果 fft 长度的值为 128、256 和 512 而不是一个值，则获取输出。 ...

Librosa 未能生成 plot mfcc - Librosa failing to plot mfcc generated

我能够从系统捕获的音频和 plot 生成 MFCC，但是经过一些重构并使用 CUDA 配置 Tensorflow。我使用 Librosa 生成 mfcc、matplotlib.pyplot 和 librosa.display 到 plot MFCC 和 sounddevice 从来自 Z0F41 ...

KALDI：步骤/make_mfcc.sh：没有这样的文件 conf/mfcc.conf - KALDI: steps/make_mfcc.sh: no such file conf/mfcc.conf

我对 kaldi 很陌生，这可能是我自己的错误，非常感谢任何帮助。我正在使用自己的数据集。我已经克隆了 voxforge 设置并使用了我的数据集。一切似乎工作正常我从 s5 文件夹运行 run.sh 时收到此错误。请有任何指示 *注意：我已经完成了 makedepend clean ...

如何在微调 Wav2Vec2 预训练 model 的同时使用 MFCC 特征提取方法？ - How to use MFCC feature extraction method while fine-tuning the Wav2Vec2 pretrained model?

我正在浏览一些关于在我的自定义数据集上微调 Wav2Vec2 预训练 model 的博客。以下是相同的资源。 https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/multi_li ...

提取 Compessed.wav 文件的 MFCC 特征 - Extracting MFCC Features of Compessed .wav File

我正在处理语音识别任务。我有两个数据集。我想合并这些数据集并使用它来训练和测试 model。其中一个数据集是 16 位的 48kHz.wav 文件，另一个是 AAC 压缩的 48 kHz.wav 文件。我想提取 MFCC 特征。我想知道 AAC 压缩会影响我的 MFCC 功能吗？如果是这样 ...

保存音频文件的梅尔频谱图而不显示其代表图 - Save mel spectrogram of audio files without displaying their repsective plots

我想保存 mfcc 频谱图 plot 而不在 Jupyter 笔记本 output 中显示。我尝试使用以下代码保存 mfcc 频谱图，尽管 output 中的图发生偏转。 ...

librosa MFCC 函数中使用的 Mel 过滤器的数量是多少？ - What is the number of Mel Filters used in librosa MFCC function?

librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, dct_type=2, norm='ortho', lifter=0, **kwargs) librosa MFCC 函数不包含要为要使用的 mel 过滤器数量传递的参数。有没 ...

如何处理音频字节以从实时音频流中提取 MFCC？ - How to process audio bytes to extract MFCCs from a live audio stream?

我想从内置麦克风流式传输实时音频，并已成功使用 PyAudio 和 Sounddevice。这两种方法都很好，但主要问题是关于特征提取。音频： import pyaudio FORMAT = pyaudio.paInt16 CHANNELS = 1 RATE = 44100 CHUNK = ...

我的 librosa MFCC 输出是否正确？我想我在使用 librosa MFCC 时得到了错误的帧数 - Is my output of librosa MFCC correct? I think I get the wrong number of frames when using librosa MFCC

信号长 1 秒，采样率为 16000，我计算了 13 MFCC，跳长为 400。输出维度是(13,41) 。为什么我得到 41 帧，不是应该是(time*sr/hop_length)=40吗？ ...

启用多字节字符集的 MFC 应用程序能否支持 UTF-8 编码字符串？ - Can MFC application with Multibyte character-set enable supports UTF-8 encoding strings?

我有一个启用了多字节字符集的旧版 MFC 应用程序。现在要求也支持 UTF-8 字符集。在 Unicode 环境中更改整个应用程序是一项艰巨的任务。我找到了支持 UTF-8 转换的 Boost.Locale 库。所以我的问题是，它可以与我现有的多字节设置一起使用吗？或任何其他方式来做到这 ...

将 MFCC 与视频帧匹配 - Match MFCC to video frames

我从视频中提取了视频帧和 mfcc。我得到 (524, 64, 64) 视频帧和 (80, 525) mfcc 的形状。数据匹配但维度相反的帧数。如何将 mfcc 对齐到大小 (525, 80)。通过排列维度，它会扭曲音频信息吗？ ...

使用 MFCC 提取特征时发生错误：值错误：无法使用“常量”或“空”以外的模式扩展空轴 0 - Error occurred when extracting features using MFCC: Value Error: can't extend empty axis 0 using modes other than 'constant' or 'empty'

我正在研究语音识别系统，我从 GitHub 获取代码。在此代码中添加了一些内容：DATASET_PATH = "F://MS//MS-4//LibriSpeech" *JSON_PATH = "data_10.json" SAMPLE_RATE = 22050 TRACK_DURATION = ...

我可以将音频转换为 MFCC 作为 RGB 图像，然后使用 CNN 中的图像进行音频分类吗 - can I convert audio to MFCC as RGB image and then use the image in CNN for audio classification

我目前正在研究音频语音分类，我的音频长度在 5 秒到 5 分钟之间变化，我的问题是我可以将我的音频转换为 MFCC 作为 RGB 图像，然后使用带有 softmax 的 CNN 吗？这听起来是个好主意吗？ ...

使用 MFCC 和 DTW 进行语音识别 - Speech Recognition with MFCC and DTW

所以，基本上我有大量基于单词的数据集。每个数据绝对具有不同的时间长度。这是我的方法：标记给定的数据集使用 Stratified KFold 对训练数据 (80%) 和测试数据 (20%) 拆分数据使用 MFCC 提取幅度、频率和时间因为从MFCC提取的每个数据的时间序列都是不同的，所以我想使用 ...

语音情感识别中的 MFCC（梅尔频率系数的平均值对性能的影响） - MFCC in speech emotion recognition (Effect of average of Mel Frequency coefficients on performance)

我正在为我正在使用 MFCC 的功能开发一个项目（从语音或语音中检测情绪），我在一定程度上理解这些功能，并且知道它们在语音方面是非常重要的功能。这是我从 librosa 中使用的代码，用于从我的音频文件中提取特征，然后我在神经网络中使用这些特征进行训练：我想知道的是，在取转置后取梅尔频率系数的 ...

ValueError：使用 MFCC 提取特征时，无法使用“常量”或“空”以外的模式扩展空轴 0 - ValueError: can't extend empty axis 0 using modes other than 'constant' or 'empty' when extracting features using MFCC

我正在研究语音识别系统，但在提取信号特征时遇到问题这是我读取音频文件和标签并提取特征的预处理块：如果我删除了 mfcc = librosa.feature.mfcc，代码工作正常这是返回错误：所以这里可能是问题所在，提前感谢 ...

MFCC 频谱图与 Scipi 频谱图 - MFCC spectrogram vs Scipi Spectrogram

我目前正在研究卷积神经网络（CNN）并开始查看不同的频谱图：关于 Librosa Plot (MFCC)，其频谱图与其他频谱图完全不同。我查看了此处发布的有关“未详细说明”的 MFCC 频谱图的评论。如何完成那里给出的解决方案发布的任务（Python Code wise）？此外，这个分辨率 ...