标签[torchaudio] - 堆栈内存溢出

要支持解码“mp3”音频文件，请安装“sox” - To support decoding 'mp3' audio files, please install 'sox'

我正在尝试使用 wav2vec 2 model 上的迁移学习来处理 ASR model。无论如何，当我不想显示或修改音频文件时，我会遇到这个问题错误： RuntimeError：后端“sox_io”不是可用后端之一：['soundfile']。 ImportError：要支持解码“mp3”音 ...

ValueError 从 Wav2Vec2 获取发射 PyTorch 管道 Model - ValueError Getting Emission from Wav2Vec2 PyTorch Pipeline Model

打电话时这是为了从 model 中获取发射概率。但我明白了 ...

为什么这两个 WAV 创建函数没有产生相同的 output？ - Why these two WAV-creating functions are not producing identical output?

我正在使用这些功能（接收 pyaudio 输入）来生成可在 torchaudio 上使用的音频 object。但是，只有“write2”产生了有效的结果，而不是“write1”。在没有 i/o 操作的情况下，我需要做什么才能使 write1 等同于 write2？ ...

如何在 torchaudio 中加载字节为 object 的 WAV 音频文件？ - How do I load a bytes object WAV audio file in torchaudio?

我正在尝试加载一个名为“音频”的字节类 object 以作为 torchaudio object 加载：我无法在网上找到任何有关如何在 Torchaudio 中加载字节音频 object 的说明的文档，它似乎只接受路径字符串。但是我必须在我的应用程序中保存 I/O，我不能写入和加载.wav 文 ...

无法使用带有 torchaudio (CPU) 的 pyinstaller from.py 创建.exe：AttributeError: '_OpNamespace' 'torchaudio' object 没有属性 'cuda_version' - Cannot create .exe with pyinstaller from .py with torchaudio (CPU): AttributeError: '_OpNamespace' 'torchaudio' object has no attribute 'cuda_version'

我有一个使用 torchaudio（没有 GPU）来处理 Windows 中的一些声音的 .py 脚本。为了分发它，我使用 pyinstaller 将它变成一个 .exe。您可以使用这个简单的脚本重现该问题：此脚本从 python 控制台python test.py正确运行，但我想创建一个在 ...

给定视频帧切片音频 - Slicing audio given video frames

我有一个视频中的音频，我用 PyTorch 加载了它。给定与感兴趣的视频片段对应的起始索引和结束索引，以及视频 FPS 和音频采样率，我 go 如何提取音频片段匹配视频的兴趣片段？我的直觉是通过以下方式将帧转换为时间：将时间转换为样本 position：这样对吗？还是我缺少什么？我担心会丢 ...

识别音轨中最响亮的部分并进行裁剪（Librosa 或 torchaudio） - Identifying the loudest part of an audio track and cropping (Librosa or torchaudio)

我已经构建了一个 U-Net model 来执行多轨音频的音频混合，为此我在训练 model 时使用了 20 个音轨剪辑（转换为频谱图）作为输入。但是训练过程非常长，所以我认为最好从每条轨道上截取 2s 片段来训练 model。数据被组织为 8 个词干（单独的乐器音轨）作为输入，单个词干混合作 ...

即使安装后也无法加载torchaudio - unable to load torchaudio even after installing

我正在尝试使用torchaudio ，但我无法导入它。我已经安装了它，它也可以通过pip列表看到。 ...

使用torchaudio和librosa排列的音频在python中是不同的 - audio to array with torchaudio and librosa are different in python

我用torchaudio和librosa在python中加载了mp3文件两个数组的长度不同，为什么使它们不同，以及如何使它们相同？如果我将 example.mp3 转换为 wav 文件并使用torchaudio 、 librosa 、 soundfile加载 wav 文件这三个 ...

在 AWS 培训容器上安装 torchaudio - install torchaudio on AWS training container

在 AWS sagemaker GPU 容器中安装 torchaudio 的正确方法是什么？为什么没有预先安装？我试过pip install torchaudio但它也尝试卸载和安装 pytorch 以及破坏整个容器。我收到segmentation fault错误可能是因为它安装了基于 CP ...

torchaudio 以特定的采样率加载音频 - torchaudio load audio with specific sampling rate

从文档https://pytorch.org/audio/stable/backend.html#torchaudio.backend.sox_io_backend.load看来，似乎没有用于以固定采样率加载音频的参数，这对于训练模型很重要。如何使用 torchaudio 加载具有固定采样率的 p ...

无法导入模块 torchaudio.prototype - Cannot import module torchaudio.prototype

我想使用 torchaudio ctc_decoder 模块制作 ctc_decoder。根据本教程使用 CTC 解码器进行ASR 推理，它应该像往常一样容易导入，但即使在安装了 torchaudio 之后，我也无法在 google colab 中这样做。它说ModuleNotFoundErro ...

Python 音调调制（不移位） - Python pitch modulation (not shifting)

我想为机器学习项目增加我的音频数据。我正在寻找一种方法来逐渐调制音频剪辑的音高以模拟多普勒效应。从我所见，Librosa 和 Torchaudio 仅支持基本的音调偏移 function，除了在 GarageBand 或其他一些 DAW 中手动处理之外，我不知道如何处理这个问题：) 谢谢！ ...

如何访问由 torchaudio.info(filepath) 返回的对象 - How to access the object returned by torchaudio.info(filepath)

在文件路径上实现 torchaudio.info 后，我得到的返回值与文档中指定的不同。这里的代码返回<torchaudio.backend.common.AudioMetaData object at 0x000001908CFB3B20> 虽然我需要按照文档指定的方式返回以下 ...

将 pandas dataframe 转换为火炬数据集 - Converting a pandas dataframe into a torch Dataset

我有一个 pandas dataframe 具有以下结构：小路句子演讲输入值标签音频1.mp3 这是第一个音频 [[0.0, 0.0, 0.0, ..., 0.0, 0.0]] [[0.00005, ..., 0.0003]] [23, 4, 6, 11, ..., 12 音频2.mp3 这是 ...

我如何知道哪些频谱图帧属于哪些音频样本？ - How do I know which spectrogram frames belong to which audio samples?

我一直在使用这个脚本：获取一些立体声音乐音频的频谱图。我预计生成的频谱图的形状为 [2, 257, audio.shape[1]/32] 然而，事实并非如此。例如，大小为 [2, 199488] 的音频剪辑（sr=24576）会产生大小为 [2, 257, 6241] 的频谱图（请注意 19 ...

Torchaudio C++ 扩展不可用 - Python - Torchaudio C++ extension is not available - Python

刚开始学习 Torchaudio，我得到了这个错误。我修复了第一部分，但即使经过一些深入的互联网冲浪，我也找不到修复。我使用 Windows 10。谢谢你的帮助！ ...

用户警告：torchaudio C++ 扩展不可用 - UserWarning: torchaudio C++ extension is not available

有人可以帮我解决torchaudio中的这个UserWarning吗？错误信息：提前致谢！ ...

Pip 无法识别 torchaudio 库 - Pip does not recognize torchaudio libary

当我尝试命令时：我收到此错误：我用 windows 10 ...

将torchaudio加载的16位音频从`float32`截断到`float16`是否安全？ - Is it safe to truncate torchaudio's loaded 16-bit audios to `float16` from `float32`?

我有多个深度/精度为 16 位的 WAV 文件。 torchaudio.info(...)认识到这一点，给我：然而，当我使用torchaudio.load(...)时，我得到了结果张量的float32 dtype。使用名为audio的张量，我知道我可以执行audio.half()将其截断为 ...