cost 421 ms
如何使用 acc_set_cuda_stream(streamId, stream)?

[英]How to use acc_set_cuda_stream(streamId, stream)?

我以這種方式創建了 CUDA stream : 將其用於袖帶的計划: 在執行袖帶的例程中,我通過plan_dir1並且我有 我想設置一個 OpenACC stream 等於 CUDA stream stream1 ,但使用: 我在行尾或行尾附近收到 **NVFORTRAN-S-0034-Synta ...

如何在 fortran 代碼中包含 cufft.h 文件?

[英]How do I include cufft.h file in a fortran code?

我有一個 Fortran 代碼,可以在 CPU 上運行,但我需要使用 GPU 加速它,我選擇使用 OpenACC 來實現。 此代碼在使用 gfortran 編譯時使用 FFTW 庫。 但是,您可能知道,這些庫不能與 nvfortran 一起使用。 所以,我必須 go 與 cufft 圖書館。 因此 ...

CUDA 圖形問題:未計算第一次迭代的結果

[英]CUDA Graph Problem: Results not computed for the first iteration

我正在嘗試利用 CUDA Graphs 使用 CUDA 的 cuFFT API 計算快速傅里葉變換 (FFT)。 我使用 CUDA Graphs將 Github 上的示例 FFT 代碼修改為以下 FFT 代碼: 問題:上述程序的輸出如下,可以看出第一次迭代的結果值也是ZEROS 。 我該如何解 ...

如何解釋 cuFFT R2C 結果

[英]How to interpret cuFFT R2C result

我正在使用 GPU 加速一些數據分析代碼,目前正在 numpy.fft 庫和 cuFFT(使用 skcuda.fft 包裝器)之間進行一些分析和比較。 我確定我只是錯過了一些關於 cuFFT 中 FFT 實現的明顯內容,但我很難在 cuFFT 文檔中找到它。 為了解決這個問題,我創建了 500 ms ...

將 R2R FFT 從 FFTW 移植到 cuFFT

[英]Porting R2R FFT from FFTW to cuFFT

我正在嘗試將一些代碼從 CPU 移植到包含一些 FFT 的 GPU。 因此,在 CPU 代碼上,一些復雜的數組使用fftw_plan_many_r2r分別轉換為實部和虛部。 Function foo 表示 R2R 轉換例程,並為復雜數組的每個部分調用兩次。 那么,由於沒有從 FFTW R2R 到 ...

在與 FFT 卷積之前在信號中間進行零填充?

[英]Zero padding in the Middle of the Signal before convolution with FFT?

我遇到了一個使用 cuFFT 對兩個信號進行簡單卷積的示例。 https://github.com/NVIDIA/cuda-samples/blob/master/Samples/simpleCUFFT/simpleCUFFT.cu 它對兩個信號執行零填充,以便它們的大小匹配在一起。 但是當我打 ...

cuda fortran 袖口PlanMany

[英]cuda fortran cufftPlanMany

我在使用 cufftPlanMany 時遇到問題。 創建計划並進行正向和反向 FFT 后,我無法取回原始數據。 請在附件中找到代碼的最低版本。 問題是在我進行了正向和反向 FFT 之后,我無法取回原始數據。 請問,我做錯了什么? 數據的順序應該是eta_d(batch,nx,ny,nz) or e ...

cuFFT static 鏈接失敗

[英]cuFFT static linking failed

我試圖靜態鏈接 cuFFT。 它給了我以下錯誤(未顯示所有錯誤) 動態鏈接工作: 我按照本指南https://docs.nvidia.com/cuda/cuda-compiler-driver-nvcc/index.html#code-changes-for-separate-compilation ...

多 GPU 批處理 1D FFT:似乎只有一個 GPU 可以工作

[英]Multi-GPU batched 1D FFTs: only a single GPU seems to work

我在 RHEL 8 上安裝了三個帶有 CUDA 工具包版本 10.2.89 的 Tesla V100。 我正在嘗試計算行主矩陣列的一批一維 FFT。 在下面的示例中,矩陣是 16x8,因此對於三個 GPU,我希望 GPU 0 執行前 3 列的 FFT,GPU 1 執行接下來的 3 列的 FFT,而 ...

2020-01-09 16:35:26   1   111    c++ / cuda / cufft  
列方向的 cuFFT

[英]cuFFT in column direction

我有一個 nx * ny 的復矩陣。 我只想在列方向上執行 FFT。 一種方法是轉置整個矩陣,然后使用 cufftPlan1d 獲得 FFT。 有沒有其他有效的方法可以在不進行矩陣轉置的情況下獲得 FFT。 cufftPlanMany 將有助於在列方向獲得 fft。 例如,讓我們假設 nx = 8 ...

2019-12-21 08:09:36   1   223    cuda / cufft  
使用 CuFFT 計算多個 fft 比批處理更有效的方法

[英]More efficent way of computing multiple fft with CuFFT than batching

根據 NVIDIA 文檔,批處理的 CuFFT 將並行執行批處理: batch 表示將並行執行的轉換數量( https://docs.nvidia.com/cuda/cufft/index.html#function-cufftplan2d ) 我想用 500 個批次執行 2D FFt,我注意到這 ...

2019-11-13 17:54:29   1   201    cuda / cufft  
用袖帶實現實到復 FFT

[英]In place real to complex FFT with cufft

我正在嘗試使用 cufft 執行就地真實到復雜的 FFT。 我知道類似的問題How to perform a Real to Complex Transformation with cuFFT 。 但是,我在嘗試重現相同的方法時遇到問題。 如果我做一個不合適的轉換,沒有問題,但是一旦我做到位,我在 ...

2019-11-12 15:39:09   1   267    c++ / cuda / cufft  
如何使用Scikit-cuda FFT調度多個1d FFT?

[英]How to schedule multiple 1d FFTs using Scikit-cuda FFT?

我正在尋找使用CUDA並行化多個1d FFT的方法。 我正在使用CUDA 6.1開發GTX 1050Ti。 例如,在我附帶的代碼中,我有一個3d輸入數組“數據”,並且我想對該數組的第二維進行1d FFT。 當然,目的是將執行時間縮短一個數量級。 我能夠使用Python的sciki ...

從設備復制到主機時,cudaMemcpy 拋出 InvalidValue 錯誤

[英]cudaMemcpy throws InvalidValue error when copying from device to host

我一直在嘗試使用 cuFFT 實現一維 FFT。 拋出 InvalidValue 錯誤,並且不會產生任何有意義的結果。 我試圖確保捕獲每個錯誤,並且我相信來自 DeviceToHost 的 cudaMemcpy 會導致該問題,但我不確定為什么,也不知道如何解決它。 cudaMemcpy 中的數據 ...

如何從 cuda::convolution 函數測量 fft 和 ifft 時間?

[英]How to measure fft and ifft time from the cuda::convolution function?

我正在使用 cuda::convolution::convolve 來計算高斯卷積,我想測量 fft 和 ifft 的時間。 但我不知道如何衡量。 我在GitHub 上找到了源代碼。 我不知道如何測量它的時間。 ...

skcuda.fft與numpy.fft.rfft不同嗎?

[英]skcuda.fft not the same as numpy.fft.rfft?

我試圖將ftf的輸出與numpy的ftf進行測試以進行單元測試,但我意識到在失敗后不久,這並不是因為我做錯了什么,但是skcuda實際上並不會產生相同的答案。 我知道它們會有所不同,但是至少其中一個數字與numpy產生的結果allclose幾個數量級,並且allclose和almost_equ ...

為什么cufft的輸入和輸出與傳統的fft有很大不同?

[英]Why does the input and output for cufft greatly differ from traditional fft?

從我對fft函數的理解(例如,從類似這樣的問題開始 ) 假設1D fft,給定N點實際數據,對於零頻率,我將得到長度為N(但為復數)+1的雙面fft。 如果我采用相同的fft輸出,並對其執行ifft,則將獲得N個實數值,在理想情況下,這將與fft的原始輸入完全匹配。 在cufft中 ...

批量1D ifft的CUFFT錯誤結果

[英]CUFFT wrong result for batch 1D ifft

我是CUDA和CUFFT的新手,當我嘗試通過應用相應的cufftExecC2R(...)恢復cufftExecC2R(...)的fft結果時,它出錯了,恢復的數據與原始數據不相同。 這是代碼,我使用的cuda庫是cuda-9.0。 我通過nvcc -o rfft_test rfft ...

Fortran中使用PlanMany的cuFFT雙精度誤差

[英]Double precision error of cuFFT with PlanMany in Fortran

按照( JackOLantern 的回答),我正在嘗試使用 cufftPlanMany 計算一批一維 FFT。 下面的代碼對n=256復數數組執行nwfs=23次 1D FFT 前向和 1D FFT 后向。 就是訓練我處理常規的 cufftPlanMany。 第二步, nwfs數組會有所不同。最后 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM