簡體 English 中英

使用SIMD范例在256位向量上應用給定函數

[英]Apply a given function on a 256 bit vector using SIMD paradigm

原文 2014-11-11 19:31:44 1 1 c++/ c/ optimization/ compiler-optimization/ simd

有沒有辦法評估__m256d/s向量的函數？ 像這樣：

#include <immintrin.h>

inline __m256d func(__m256d *a, __m256d *b)
{
    return 1 / ((*a + *b) * (*a + *b));
}

int main()
{
    __m256d a = _mm256_set_pd(1.0f, 2.0f, 3.0f, 4.0f);
    __m256d b = _mm256_set_pd(1.0f, 2.0f, 3.0f, 4.0f);
    __m256d c = func(a, b);

    return 0;
}

我想使用SIMD范例評估任何給定的數學函數。 如果這不可能，這不是SIMD編程Vs GPGPU的最大限制嗎？ 我的意思是我已經意識到CPU的FLOPS計算能力越來越接近GPU，一些比較：

Nvidia Quadro K6000~5196 GFLOPS
Nvidia Quadro K5000~2169 GFLOPS
Intel Xeon E5-2699 v3~1728 GFLOPS（18核* 32 FLOP /周期* 3 Ghz）

未來的猜測：

AVX-512和可能的20核Xeon CPUs 3840 GLOPS（20核* 64 FLOP /周期* 3 Ghz）
騎士降落5907 GFLOPS（71芯* 64 FLOP /周期* 1.3 Ghz）

1 個解決方案

你的問題非常有趣。 您使用現有編譯器無法完成所描述的內容。 如果覆蓋處理256b向量的基本運算符，您可能能夠接近所需的功能。

但是我不會說這是SIMD編程與GPGPU的最大限制 。 GPGPU的主要優點是FLOPS計數，但這需要一些成本。 一個是GPGPU不能很好地處理分支，不能處理處理大型本地數據的線程等。另一個限制是與傳統編碼相比，GPGPU編程模型相當復雜。

在CPU上，您可以運行更多通用代碼，編譯器將在大多數情況下進行向量化，而無需要求程序員編寫特定的內部函數。

所以我會進一步說， 簡單的代碼實際上是CPU的優勢 。 考慮將20年FORTRAN軟件移植到GPGPU所需的工作量。 如果你有一個好的編譯器和一個好的CPU（具有良好的FLOP計數），你可能會獲得預期的性能。

使用 SIMD 根據另一個向量位值計算值的乘積

[英]Computing a product of values based on another vector bit values using SIMD

使用SIMD指令執行任意128/256/512位置換的最快方法是什么？

[英]What's the fastest way to perform an arbitrary 128/256/512 bit permutation using SIMD instructions?

使用 SIMD 對半字節的去交錯向量

[英]Deinterleve vector of nibbles using SIMD

使用 192/256 位整數求和無符號 64 位整數向量的點積的最快方法？

[英]Fastest way to sum dot product of vector of unsigned 64 bit integers using 192/256 bit integer?

在CUDA中使用SIMD實現位旋轉運算符

[英]Implementation of bit rotate operators using SIMD in CUDA

使用模板函數將轉換應用於具有索引的向量

[英]apply transformation to vector with index using template function

在 C++ 中使用 AltiVec SIMD 向量類型的編譯錯誤

[英]Compilation error using AltiVec SIMD vector type in C++

如何將兩個 256 位向量的低 3 位元素連接到一個 512 位向量中，並插入一個標量？

[英]How to concatenate the low 3 elements from two 256-bit vectors in a 512-bit vector, and insert a scalar?

SIMD與向量乘法中的OMP

[英]SIMD vs OMP in vector multiplication

在 LLVM 中加載 SIMD 向量 memory

[英]SIMD vector memory load in LLVM

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用 SIMD 根據另一個向量位值計算值的乘積使用SIMD指令執行任意128/256/512位置換的最快方法是什么？使用 SIMD 對半字節的去交錯向量使用 192/256 位整數求和無符號 64 位整數向量的點積的最快方法？在CUDA中使用SIMD實現位旋轉運算符使用模板函數將轉換應用於具有索引的向量在 C++ 中使用 AltiVec SIMD 向量類型的編譯錯誤如何將兩個 256 位向量的低 3 位元素連接到一個 512 位向量中，並插入一個標量？ SIMD與向量乘法中的OMP 在 LLVM 中加載 SIMD 向量 memory

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM