[英]Cuda, calculate distance matrix between 3d objects
我有一个3D连接的N个对象(原子)的“字符串”(分子)(每个原子都有一个坐标)。 而且我需要计算一个分子中每对原子之间的距离(请参阅下面的伪代码)。 CUDA怎么做? 我应该传递给内核函数2 3D阵列吗? 还是3个坐标为X [N],Y [N],Z [N]的数组? 谢谢。
结构原子{double x,y,z; }
int main()
{
//N number of atoms in a molecule
double DistanceMatrix[N][N];
double d;
atom Atoms[N];
for (int i = 0; i < N; i ++)
for (int j = 0; j < N; j++)
DistanceMatrix[i][j] = (atoms[i].x -atoms[j].x)*(atoms[i].x -atoms[j].x) +
(atoms[i].y -atoms[j].y)* (atoms[i].y -atoms[j].y) + (atoms[i].z -atoms[j].z)* (atoms[i].z -atoms[j].z;
}
除非您使用非常大的分子,否则可能不会有足够的工作来保持GPU繁忙,因此使用CPU的计算会更快。
如果要计算欧几里德距离,则计算不正确。 您需要勾股定理的3D版本。
我将使用SoA来存储坐标。
您想要生成具有尽可能多的合并读取和写入的内存访问模式。 为此,将每个扭曲中的32个线程生成的地址或索引安排得彼此尽可能近(略有简化)。
threadIdx
指定块内的线程索引,而blockIdx
指定网格内的块索引。 对于扭曲中的所有线程, blockIdx
始终相同。 在块中的线程中,只有threadIdx
有所不同。 为了可视化如何将threadIdx
的3个维度分配给线程,可以将它们视为嵌套循环,其中x
是内部循环, z
是外部循环。 因此,具有相邻x
值的线程最有可能在同一扭曲中,并且,如果x
被32整除,则只有共享相同x / 32
值的线程才在同一扭曲中。
我在下面提供了您的算法的完整示例。 在示例中, i
索引是从threadIdx.x
派生的,因此,要检查扭曲是否会生成合并的读写,我将遍历代码,同时为i
插入一些连续的值(例如0、1和2)并检查生成的索引也将是连续的。
从j
索引生成的地址不太重要,因为j
是从threadIdx.y
派生的,因此它在一次扭曲内变化的可能性较小(如果threadIdx.x
被32整除,则永远不会变化)。
#include "cuda_runtime.h"
#include <iostream>
using namespace std;
const int N(20);
#define check(ans) { _check((ans), __FILE__, __LINE__); }
inline void _check(cudaError_t code, char *file, int line)
{
if (code != cudaSuccess) {
fprintf(stderr,"CUDA Error: %s %s %d\n", cudaGetErrorString(code), file, line);
exit(code);
}
}
int div_up(int a, int b) {
return ((a % b) != 0) ? (a / b + 1) : (a / b);
}
__global__ void calc_distances(double* distances,
double* atoms_x, double* atoms_y, double* atoms_z);
int main(int argc, char **argv)
{
double* atoms_x_h;
check(cudaMallocHost(&atoms_x_h, N * sizeof(double)));
double* atoms_y_h;
check(cudaMallocHost(&atoms_y_h, N * sizeof(double)));
double* atoms_z_h;
check(cudaMallocHost(&atoms_z_h, N * sizeof(double)));
for (int i(0); i < N; ++i) {
atoms_x_h[i] = i;
atoms_y_h[i] = i;
atoms_z_h[i] = i;
}
double* atoms_x_d;
check(cudaMalloc(&atoms_x_d, N * sizeof(double)));
double* atoms_y_d;
check(cudaMalloc(&atoms_y_d, N * sizeof(double)));
double* atoms_z_d;
check(cudaMalloc(&atoms_z_d, N * sizeof(double)));
check(cudaMemcpy(atoms_x_d, atoms_x_h, N * sizeof(double), cudaMemcpyHostToDevice));
check(cudaMemcpy(atoms_y_d, atoms_y_h, N * sizeof(double), cudaMemcpyHostToDevice));
check(cudaMemcpy(atoms_z_d, atoms_z_h, N * sizeof(double), cudaMemcpyHostToDevice));
double* distances_d;
check(cudaMalloc(&distances_d, N * N * sizeof(double)));
const int threads_per_block(256);
dim3 n_blocks(div_up(N, threads_per_block));
calc_distances<<<n_blocks, threads_per_block>>>(distances_d, atoms_x_d, atoms_y_d, atoms_z_d);
check(cudaPeekAtLastError());
check(cudaDeviceSynchronize());
double* distances_h;
check(cudaMallocHost(&distances_h, N * N * sizeof(double)));
check(cudaMemcpy(distances_h, distances_d, N * N * sizeof(double), cudaMemcpyDeviceToHost));
for (int i(0); i < N; ++i) {
for (int j(0); j < N; ++j) {
cout << "(" << i << "," << j << "): " << distances_h[i + N * j] << endl;
}
}
check(cudaFree(distances_d));
check(cudaFreeHost(distances_h));
check(cudaFree(atoms_x_d));
check(cudaFreeHost(atoms_x_h));
check(cudaFree(atoms_y_d));
check(cudaFreeHost(atoms_y_h));
check(cudaFree(atoms_z_d));
check(cudaFreeHost(atoms_z_h));
return 0;
}
__global__ void calc_distances(double* distances,
double* atoms_x, double* atoms_y, double* atoms_z)
{
int i(threadIdx.x + blockIdx.x * blockDim.x);
int j(threadIdx.y + blockIdx.y * blockDim.y);
if (i >= N || j >= N) {
return;
}
distances[i + N * j] =
(atoms_x[i] - atoms_x[j]) * (atoms_x[i] - atoms_x[j]) +
(atoms_y[i] - atoms_y[j]) * (atoms_y[i] - atoms_y[j]) +
(atoms_z[i] - atoms_z[j]) * (atoms_z[i] - atoms_z[j]);
}
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.