我正在为不同的设备开发 OpenCL 代码。 目前我使用 Rockchip RK3588(OpenCL 设备 - Mali-G610 r0p0)。 程序算法最初写在 CUDA 上,其中 warp size 为 32。在 OpenCL 中这个值被命名为“sub-work group size”(计算 ...
我正在为不同的设备开发 OpenCL 代码。 目前我使用 Rockchip RK3588(OpenCL 设备 - Mali-G610 r0p0)。 程序算法最初写在 CUDA 上,其中 warp size 为 32。在 OpenCL 中这个值被命名为“sub-work group size”(计算 ...
如您所知,Samsung Galaxy 的 kernel 源中有几个 Mali Midgard 目录。 如何知道我的设备中实际使用的是哪一个? ...
我在大学的论文中使用这个 gpu 我在这个东西上运行了很多不同的内核,并且执行时间停留在 12666.6689 毫秒,即使我有一个 88 指令 * 100m 迭代的循环。 唯一可以增加执行时间的方法是在 for 循环语句中添加x!=0 为什么这种事情总是发生。 我无法理解。 为什么???? 例如,8 ...
您好,我使用的是马里 t-624 gpu(Midgard Family Gpu)。 你能告诉我那些 gpu 是否支持点积,因为我找不到任何信息。 你也可以告诉我一个用 opencl 编写的内核,它会给我最好的时间执行点积。 ...
我正在尝试使用 TensorflowLite 在 Mali GPU 上部署 BERT 和 Transformer 模型。 但问题是TensorflowLite不支持这些模型中的一些操作,包括{CAST, GATHER, MUL, RESHAPE, UNPACK}。 有谁知道我如何在 GPU 上委派这 ...
我有一个非 Android 嵌入式系统,它使用基于嵌入式 Linux 的操作系统。 它有一个 Mali GPU,我需要分析 GPU 的性能。 一些选项是 DS5 Streamline 和 Mali Graphics 调试器,但它似乎是为 Android(带 adb)量身定制的。 我可以使用任何通用的 ...
我经常看到基于 ARM 的芯片宣传板载 GPU,例如带有“Broadcom VideoCore IV @ 250 MHz”的 RPI3 和带有“Mali-450 GPU”的 OdroidC2。 这些芯片宣传诸如“解码 4k/30FPS,编码 1080p,30FPS”之类的东西,作为 GPU 编码和 ...
我正在尝试精确测量我的应用程序使用的 memory 的总量。 我正在开发在电话设备上利用 GPU 的 a.so 库。 我在开发中主要使用 C/C++ 和 OpenCL,因此,我所有的 memory 分配都是new/delete或clCreateBuffer/clReleaseMemObject 。 ...
我发现点积与向量加法、向量 mul 的循环相同(每个 ALU 每个核心只有一个循环),但不是疯子。 所以我很好奇疯狂指令有多少个周期。 ...
我希望 arm mali midgard gpus 和 arm cpus 上的 opencl 缓冲区具有零复制行为,以便向量的数据指针和 clBuffer 在其生命周期内指向相同的位置。 我尝试过的一些事情。 我为向量编写了一个自定义分配器(64 字节对齐),然后我尝试使用 cl_arm_impo ...
我希望分配一个向量并使用它的数据指针在 GPU 上分配一个零复制缓冲区。 有这个 cl_arm_import_memory 扩展可用于执行此操作。 但我不确定它是否支持所有 mali midgard OpenCL 驱动程序。 我正在浏览这个链接,我对以下几行感到非常困惑:- 如果扩展字符串 cl_ ...
我准备购买一组SOPINE A64 模块用于基本(基于 CPU)的并行计算,我注意到这些模块也有 GPU。 不难发现Mali-400与 OpenCL不兼容,但我无法确认我是否能够使用 OpenGL 接口进行通用 GPU 编程。 我不需要做任何花哨的事情; 我只想知道我是否可以将一些矩阵繁重的任务卸载 ...
我尝试渲染一组3D模型。 我将网格合并为一个具有20万个顶点的网格。 具有位置,法线和纹理坐标属性。 我使用VBO但不使用索引缓冲区对象。 我只进行2次渲染调用(一个用于阴影)。 我使用libgdx 。 我期望弱我的Galaxy j3 (2016)上的合并网格具有良好的FPS,但 ...
我有这个UBO: 在OpenGL桌面上,大小为3 * Vec4 * 256个元素(总大小为12288字节)-这是我所期望的=确定 但是,在我的手机OpenGL ES 3.0上运行时,大小为4 * Vec4 * 256个元素(总大小为16384字节)=不正确 我认为std140 ...
我实现了在Mali-400 gpu上运行的opengl-es应用程序。 我从相机抓取1280x960 RGB缓冲区,并使用glTexImage2D在gpu上渲染。 但是,对于1280x960分辨率的帧,glTexImage2D调用大约需要25毫秒。 它会额外复制pCameraBuffe ...
我试图找到一个变量/某个度量,可以帮助我计算Linux内核中Midgard GPU驱动程序中呈现的实际帧数。 在用户级程序上测试我的算法时,我使用系统调用(如下所示)从SurfaceFlinger获取帧数并将此值存储到文件中,我稍后在用户级程序中读取该文件。 注意:我正在尝试创建一 ...
我有用户的报告,涉及某些带有Mali GPU(华为荣誉9和三星Galaxy S10 +分别带有Mali G71和G76)的设备上的半浮点数据渲染问题。 在Adreno和PowerVR GPU上正常工作时,这些设备上的渲染呈现乱码。 我仔细检查了代码,这似乎是正确的: 代码似乎 ...
我正在将ARM ComputeLibrary集成到项目中。 它不是我熟悉语义的API,但是我正在通过文档和示例进行工作。 目前,我正在尝试将std::vector的内容复制到CLTensor 。 然后使用ARMCL GEMM操作。 我一直在构建一个MWE,如下所示,目的是使矩 ...
我有一个奇怪的问题,这已经困扰了我好一阵子了,最好用一段短视频来解释这个问题: 如您所见,当您四处移动相机时,场景中的对象会发生抖动,但是当相机不移动时,有时也会发生类似的情况。 现在已经让我发疯了一段时间。 该视频是在使用TinkerOS的Tinkerboard上拍摄的,但是在使用 ...
我最近购买了带有Allwinner H6 SOC的OrangePi的Lite2开发板,其中包括四核A53 + T720 Mali GPU。 在H6 SPEC中,它清楚地表明GPU支持OpenCL 1.1 API,但是,我从OrangePi网站安装的Ubuntu(台式机)映像不包含OpenC ...