cost 60 ms
要支持解码“mp3”音频文件,请安装“sox” - To support decoding 'mp3' audio files, please install 'sox'

我正在尝试使用 wav2vec 2 model 上的迁移学习来处理 ASR model。无论如何,当我不想显示或修改音频文件时,我会遇到这个问题 错误: RuntimeError:后端“sox_io”不是可用后端之一:['soundfile']。 ImportError:要支持解码“mp3”音 ...

为什么这两个 WAV 创建函数没有产生相同的 output? - Why these two WAV-creating functions are not producing identical output?

我正在使用这些功能(接收 pyaudio 输入)来生成可在 torchaudio 上使用的音频 object。 但是,只有“write2”产生了有效的结果,而不是“write1”。 在没有 i/o 操作的情况下,我需要做什么才能使 write1 等同于 write2? ...

如何在 torchaudio 中加载字节为 object 的 WAV 音频文件? - How do I load a bytes object WAV audio file in torchaudio?

我正在尝试加载一个名为“音频”的字节类 object 以作为 torchaudio object 加载: 我无法在网上找到任何有关如何在 Torchaudio 中加载字节音频 object 的说明的文档,它似乎只接受路径字符串。 但是我必须在我的应用程序中保存 I/O,我不能写入和加载.wav 文 ...

无法使用带有 torchaudio (CPU) 的 pyinstaller from.py 创建.exe:AttributeError: '_OpNamespace' 'torchaudio' object 没有属性 'cuda_version' - Cannot create .exe with pyinstaller from .py with torchaudio (CPU): AttributeError: '_OpNamespace' 'torchaudio' object has no attribute 'cuda_version'

我有一个使用 torchaudio(没有 GPU)来处理 Windows 中的一些声音的 .py 脚本。为了分发它,我使用 pyinstaller 将它变成一个 .exe。 您可以使用这个简单的脚本重现该问题: 此脚本从 python 控制台python test.py正确运行,但我想创建一个在 ...

给定视频帧切片音频 - Slicing audio given video frames

我有一个视频中的音频,我用 PyTorch 加载了它。给定与感兴趣的视频片段对应的起始索引和结束索引,以及视频 FPS 和音频采样率,我 go 如何提取音频片段匹配视频的兴趣片段? 我的直觉是通过以下方式将帧转换为时间: 将时间转换为样本 position: 这样对吗? 还是我缺少什么? 我担心会丢 ...

识别音轨中最响亮的部分并进行裁剪(Librosa 或 torchaudio) - Identifying the loudest part of an audio track and cropping (Librosa or torchaudio)

我已经构建了一个 U-Net model 来执行多轨音频的音频混合,为此我在训练 model 时使用了 20 个音轨剪辑(转换为频谱图)作为输入。 但是训练过程非常长,所以我认为最好从每条轨道上截取 2s 片段来训练 model。 数据被组织为 8 个词干(单独的乐器音轨)作为输入,单个词干混合作 ...

我如何知道哪些频谱图帧属于哪些音频样本? - How do I know which spectrogram frames belong to which audio samples?

我一直在使用这个脚本: 获取一些立体声音乐音频的频谱图。 我预计生成的频谱图的形状为 [2, 257, audio.shape[1]/32] 然而,事实并非如此。 例如,大小为 [2, 199488] 的音频剪辑(sr=24576)会产生大小为 [2, 257, 6241] 的频谱图(请注意 19 ...

将torchaudio加载的16位音频从`float32`截断到`float16`是否安全? - Is it safe to truncate torchaudio's loaded 16-bit audios to `float16` from `float32`?

我有多个深度/精度为 16 位的 WAV 文件。 torchaudio.info(...)认识到这一点,给我: 然而,当我使用torchaudio.load(...)时,我得到了结果张量的float32 dtype。 使用名为audio的张量,我知道我可以执行audio.half()将其截断为 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM