簡體   English   中英

使用 CuFFT 計算多個 fft 比批處理更有效的方法

[英]More efficent way of computing multiple fft with CuFFT than batching

根據 NVIDIA 文檔,批處理的 CuFFT 將並行執行批處理:

batch 表示將並行執行的轉換數量( https://docs.nvidia.com/cuda/cufft/index.html#function-cufftplan2d

我想用 500 個批次執行 2D FFt,我注意到這些 FFT 的計算時間幾乎線性地取決於批次的數量。 因此,我想知道批次是否真的是並行計算的。 一個 1500 x 1500 像素和 500 個批次的 FFT 運行大約需要 200 毫秒。

在同時運行大量 FFT 的情況下,使用批處理是減少計算時間的最佳方法還是應該考慮流式傳輸或其他任何方法?

我還沒有在 NVIDIA 文檔中找到有關批次內部執行的更多詳細信息。

我想用 500 個批次執行 2D FFt,我注意到這些 FFT 的計算時間幾乎線性地取決於批次的數量。

一旦安排了足夠的並行工作以使 GPU 的並發處理能力飽和,這是可以預料的。 非常少量的批次可能沒有線性相關性,但是您應該發現從接近恆定時間的非常小的批次大小轉換到大批次大小的線性時間。

因此,我想知道批次是否真的是並行計算的。

你可以假設他們是。

在同時運行大量 FFT 的情況下,使用批處理是減少計算時間的最佳方法

是的

...或者我應該考慮流式傳輸或其他任何方法嗎?

不。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM