cost 299 ms
CPU 中的集成 GPU 是否有通过 PCIe 总线传输数据的开销,就像在 CPU 和专用 GPU 之间传输数据一样? - Do integrated GPUs in CPUs have the overhead of transferring data over the PCIe bus just like transferring data between CPU and dedicated GPU?

CPU 中的集成 GPU 是否有通过 PCIe 总线传输数据的开销,就像在 CPU 和专用 GPU 之间传输数据一样? 我问这个问题是因为我的 OpenCL GPU 加速计算在集成的 GPU Intel(R) Iris(R) Xe Graphics 上的性能优于专用的 NVIDIA T500 G ...

优化蒙特卡洛算法 | 减少 GPU 和特征值问题的操作 | 多体问题 - Optimising Monte-Carlo algorithm | Reduce operation on GPU & Eigenvalues problem | Many-body problem

这个问题提醒一些典型的多体问题,但有一些额外的计算。 我正在研究广义 Metropolis Monte-Carlo 算法,用于对大量任意量子系统(例如磁性离子)进行经典交互建模。 但这实际上与问题无关。 有超过 100000 个交互对象,每个对象都可以通过一个坐标和一组描述其当前 state r_i ...

OpenACC 通过 C++ 中的多个类访问并行化循环 - OpenACC parallelize loops with multiple classes access in C++

我正在尝试学习 OpenACC,但我研究的所有示例都是非常基础的,比如将向量移动到 GPU,计算一些和或乘法并将结果返回。 如果代码中涉及其他数据结构会怎样? 例如在 C++ 中,我想创建一个类来计算,然后对参与调查的人的猫使用的玩具进行一些数据分析。 “Person”是一个包含一些细节的类和所有 ...

时间片 GPU 调度器 - Time-sliced GPU scheduler

我看到了这个问题。 答案是调度程序在最新的 MPS 文档中被描述为“时间片”调度程序,并且似乎正在发生的事情是,调度程序可以根据一些未发布的规则选择预-emp 正在运行的 kernel,以便它可以从另一个进程切换到另一个 kernel。 ... 但是,如 MPS 文档中所述,当 A 和 B 源自非 ...

SyCL ComputeCpp:如何在运行时同时支持 SPIR 和 PTX 位码 - SyCL ComputeCpp: how to support both SPIR and PTX bitcode at runtime

我最近用 SyCL ComputeCpp 库做了一些实验,我们的结果很好。 然而,在我想要实现的应用程序中,我应该在运行时同时支持 nVidia 和 AMD/Intel 卡。 在撰写本文时,在我看来 nVidia 并未对 spir64/spirv64 位码提供任何支持,迫使开发人员为每个项目创建 2 ...

2022-11-13 12:05:29   1   35    gpgpu / sycl  
如何精确测量 GPU(OpenACC+托管内存)的 memory 使用情况 - How to measure precisely the memory usage of the GPU (OpenACC+Managed Memory)

哪个是测量使用 OpenACC 和托管 Memory 的应用程序的 GPU 的 memory 使用的最精确方法? 我使用了两种方法来做到这一点:一种是 关于这里打印的内容,上面的 Memory 用法(10322MiB / 16160MiB)和下面的用法(./myapp 398MiB)有什么区别? 我 ...

如何缓解 CPU 到 GPU 瓶颈 - How to mitigate CPU to GPU bottleneck

我正在使用 ComputeSharp 库在大量数据上运行计算着色器。 数据集大约 10GB,分成更小的(大约 3Gb)块供 GPU 处理。 问题是每个部分都需要大约 1 秒的时间来加载、计算和返回,即使计算几乎是即时的。 我正在寻找一种方法来加快速度,因为现在它在某些情况下会被 CPU 超越。 更多 ...

如何调整代码以利用 2013 Mac 上的 GPU? - How can I adjust the code so it takes advantage of a GPU on an 2013 Mac?

我有一台 2013 Mac 电脑 显示在其“关于此 Mac”的描述中。 我想这意味着我的机器有一个 GPU。 现在,我正在处理一段看起来像泰勒展开式的代码: 如何调整代码以便利用此 GPU 来加速我的计算? 人们用 CUDA 做了一些特殊的调整和编译。 但我想知道如何调整这个临时 GPU 的代码和 ...

Aparapi 无法解析最大值并回退到 CPU - Aparapi cannot resolve max and falls back to CPU

所以我在 Java 中设计了一个 CNN,我真的想要并行化卷积和池化。 这是我的方法(行、列、inputLayer、convLayer、poolLayer 和特性已经在构造函数中初始化): 不是最漂亮的代码,但我已经很久没有使用过 Java,更不用说 Aparapi 了。 最初我直接使用原来的 a ...

从多集的两个 3D arrays 中找到任意两个对应多集的交集大小的更快方法 - Faster way to find the size of the intersection of any two corresponding multisets from two 3D arrays of multisets

我在 MATLAB 中有两个uint16 3D (GPU) arrays A和B ,它们具有相同的第二维和第三维。 例如, size(A,1) = 300 000 , size(B,1) = 2000 , size(A,2) = size(B,2) = 20 , size(A,3) = size(B ...

C++ CUDA Gridsize含义说明 - C++ CUDA Gridsize meaning clarification

我是 CUDA 编程的新手。 我目前正在对大量大数据样本进行蒙特卡洛模拟。 我试图动态最大化并计算要提交给 GPU 的块数。 我遇到的问题是我不清楚如何计算一次可以提交给 GPU 的最大块数。 这是查询时我的 GPU 的 output : 我不清楚的是,每个块的最大线程数明确定义为 1024,但网格 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM