标签[cufft] - 堆栈内存溢出

如何使用 acc_set_cuda_stream(streamId, stream)？ - How to use acc_set_cuda_stream(streamId, stream)?

我以这种方式创建了 CUDA stream ：将其用于袖带的计划：在执行袖带的例程中，我通过plan_dir1并且我有我想设置一个 OpenACC stream 等于 CUDA stream stream1 ，但使用：我在行尾或行尾附近收到 **NVFORTRAN-S-0034-Synta ...

如何在 fortran 代码中包含 cufft.h 文件？ - How do I include cufft.h file in a fortran code?

我有一个 Fortran 代码，可以在 CPU 上运行，但我需要使用 GPU 加速它，我选择使用 OpenACC 来实现。此代码在使用 gfortran 编译时使用 FFTW 库。但是，您可能知道，这些库不能与 nvfortran 一起使用。所以，我必须 go 与 cufft 图书馆。因此 ...

CUDA 图形问题：未计算第一次迭代的结果 - CUDA Graph Problem: Results not computed for the first iteration

我正在尝试利用 CUDA Graphs 使用 CUDA 的 cuFFT API 计算快速傅里叶变换 (FFT)。我使用 CUDA Graphs将 Github 上的示例 FFT 代码修改为以下 FFT 代码：问题：上述程序的输出如下，可以看出第一次迭代的结果值也是ZEROS 。我该如何解 ...

如何解释 cuFFT R2C 结果 - How to interpret cuFFT R2C result

我正在使用 GPU 加速一些数据分析代码，目前正在 numpy.fft 库和 cuFFT（使用 skcuda.fft 包装器）之间进行一些分析和比较。我确定我只是错过了一些关于 cuFFT 中 FFT 实现的明显内容，但我很难在 cuFFT 文档中找到它。为了解决这个问题，我创建了 500 ms ...

将 R2R FFT 从 FFTW 移植到 cuFFT - Porting R2R FFT from FFTW to cuFFT

我正在尝试将一些代码从 CPU 移植到包含一些 FFT 的 GPU。因此，在 CPU 代码上，一些复杂的数组使用fftw_plan_many_r2r分别转换为实部和虚部。 Function foo 表示 R2R 转换例程，并为复杂数组的每个部分调用两次。那么，由于没有从 FFTW R2R 到 ...

在与 FFT 卷积之前在信号中间进行零填充？ - Zero padding in the Middle of the Signal before convolution with FFT?

我遇到了一个使用 cuFFT 对两个信号进行简单卷积的示例。 https://github.com/NVIDIA/cuda-samples/blob/master/Samples/simpleCUFFT/simpleCUFFT.cu 它对两个信号执行零填充，以便它们的大小匹配在一起。但是当我打 ...

如何用 CUDA 计算大矩阵的二维 FFT？ - How to calculate a two-dimensional FFT of a large matrix with CUDA?

现在我有一个16K*16K的大矩阵，全局memory是不够的。如何计算矩阵的二维FFT？ ...

cuda fortran 袖口PlanMany - cuda fortran cufftPlanMany

我在使用 cufftPlanMany 时遇到问题。创建计划并进行正向和反向 FFT 后，我无法取回原始数据。请在附件中找到代码的最低版本。问题是在我进行了正向和反向 FFT 之后，我无法取回原始数据。请问，我做错了什么？数据的顺序应该是eta_d(batch,nx,ny,nz) or e ...

cuFFT static 链接失败 - cuFFT static linking failed

我试图静态链接 cuFFT。它给了我以下错误（未显示所有错误）动态链接工作：我按照本指南https://docs.nvidia.com/cuda/cuda-compiler-driver-nvcc/index.html#code-changes-for-separate-compilation ...

多 GPU 批处理 1D FFT：似乎只有一个 GPU 可以工作 - Multi-GPU batched 1D FFTs: only a single GPU seems to work

我在 RHEL 8 上安装了三个带有 CUDA 工具包版本 10.2.89 的 Tesla V100。我正在尝试计算行主矩阵列的一批一维 FFT。在下面的示例中，矩阵是 16x8，因此对于三个 GPU，我希望 GPU 0 执行前 3 列的 FFT，GPU 1 执行接下来的 3 列的 FFT，而 ...

列方向的 cuFFT - cuFFT in column direction

我有一个 nx * ny 的复矩阵。我只想在列方向上执行 FFT。一种方法是转置整个矩阵，然后使用 cufftPlan1d 获得 FFT。有没有其他有效的方法可以在不进行矩阵转置的情况下获得 FFT。 cufftPlanMany 将有助于在列方向获得 fft。例如，让我们假设 nx = 8 ...

使用 CuFFT 计算多个 fft 比批处理更有效的方法 - More efficent way of computing multiple fft with CuFFT than batching

根据 NVIDIA 文档，批处理的 CuFFT 将并行执行批处理： batch 表示将并行执行的转换数量（ https://docs.nvidia.com/cuda/cufft/index.html#function-cufftplan2d ）我想用 500 个批次执行 2D FFt，我注意到这 ...

用袖带实现实到复 FFT - In place real to complex FFT with cufft

我正在尝试使用 cufft 执行就地真实到复杂的 FFT。我知道类似的问题How to perform a Real to Complex Transformation with cuFFT 。但是，我在尝试重现相同的方法时遇到问题。如果我做一个不合适的转换，没有问题，但是一旦我做到位，我在 ...

如何使用Scikit-cuda FFT调度多个1d FFT？ - How to schedule multiple 1d FFTs using Scikit-cuda FFT?

我正在寻找使用CUDA并行化多个1d FFT的方法。我正在使用CUDA 6.1开发GTX 1050Ti。例如，在我附带的代码中，我有一个3d输入数组“数据”，并且我想对该数组的第二维进行1d FFT。当然，目的是将执行时间缩短一个数量级。我能够使用Python的sciki ...

从设备复制到主机时，cudaMemcpy 抛出 InvalidValue 错误 - cudaMemcpy throws InvalidValue error when copying from device to host

我一直在尝试使用 cuFFT 实现一维 FFT。抛出 InvalidValue 错误，并且不会产生任何有意义的结果。我试图确保捕获每个错误，并且我相信来自 DeviceToHost 的 cudaMemcpy 会导致该问题，但我不确定为什么，也不知道如何解决它。 cudaMemcpy 中的数据 ...

如何从 cuda::convolution 函数测量 fft 和 ifft 时间？ - How to measure fft and ifft time from the cuda::convolution function?

我正在使用 cuda::convolution::convolve 来计算高斯卷积，我想测量 fft 和 ifft 的时间。但我不知道如何衡量。我在GitHub 上找到了源代码。我不知道如何测量它的时间。 ...

skcuda.fft与numpy.fft.rfft不同吗？ - skcuda.fft not the same as numpy.fft.rfft?

我试图将ftf的输出与numpy的ftf进行测试以进行单元测试，但我意识到在失败后不久，这并不是因为我做错了什么，但是skcuda实际上并不会产生相同的答案。我知道它们会有所不同，但是至少其中一个数字与numpy产生的结果allclose几个数量级，并且allclose和almost_equ ...

为什么cufft的输入和输出与传统的fft有很大不同？ - Why does the input and output for cufft greatly differ from traditional fft?

从我对fft函数的理解（例如，从类似这样的问题开始）假设1D fft，给定N点实际数据，对于零频率，我将得到长度为N（但为复数）+1的双面fft。如果我采用相同的fft输出，并对其执行ifft，则将获得N个实数值，在理想情况下，这将与fft的原始输入完全匹配。在cufft中 ...

批量1D ifft的CUFFT错误结果 - CUFFT wrong result for batch 1D ifft

我是CUDA和CUFFT的新手，当我尝试通过应用相应的cufftExecC2R(...)恢复cufftExecC2R(...)的fft结果时，它出错了，恢复的数据与原始数据不相同。这是代码，我使用的cuda库是cuda-9.0。我通过nvcc -o rfft_test rfft ...

Fortran中使用PlanMany的cuFFT双精度误差 - Double precision error of cuFFT with PlanMany in Fortran

按照（ JackOLantern 的回答），我正在尝试使用 cufftPlanMany 计算一批一维 FFT。下面的代码对n=256复数数组执行nwfs=23次 1D FFT 前向和 1D FFT 后向。就是训练我处理常规的 cufftPlanMany。第二步， nwfs数组会有所不同。最后 ...