cost 404 ms
在虚幻引擎中记录和保存基本 GPU 统计数据的最简单方法?

[英]easiest way to log and save basic GPU stats in Unreal Engine?

在虚幻引擎编辑器中测试时,我需要在文件中记录基本的 GPU 统计数据(计算时间),以便之后分析它们。 最简单的方法是什么? 我正在使用 UE 5.1 对蓝图没有偏好,解决方案可以使用或不使用蓝图。 我不需要记录同步事件(如果它们也被添加也没关系,我只是不需要它们)。 随着时间的推移,我只需要简单的 ...

通用派生实例的成本中心?

[英]Cost centres for Generic-derived instances?

根据+RTS -p time inherited,我 90% 的执行时间都花在运行一个基于Generic的instance MyClass MyType定义上,对于一个 class 递归超过 100 多个类型/实例。 我已经尝试让 GHC 告诉我详细信息,以确定哪些实例速度慢,或者哪些实例被更频繁 ...

使用 Allied Vision Camera 增加实时 stream 的每秒帧数 (FPS),该相机使用 Vimba SDK for Python

[英]Increase Frames Per Second (FPS) of live stream using Allied Vision Camera that uses Vimba SDK for Python

首先,我得到了 Allied Vision Camera,在 Vimba SDK Python 的帮助下,我正在播放。 流式传输的 FPS 约为 12-14,而 Manta G-201C 提供的最大 FPS 为 30。如何达到最大 FPS? 首先,在 Vimba Viewer App 的帮助下,我 ...

Adam 优化器在几乎相同的 model 上花费更长的时间来应用梯度

[英]Adam optimizer takes much longer on the almost the same model to apply gradients

我有两个几乎是镜面反射的模型,如果不是最后一层的话,其中一个是Dense(1, "linear")而另一个是Dense(4, "softmax") .. 代码如下: 但是,当我分析我的代码时,我得到以下统计信息: 现在,我想知道为什么应用第一个渐变需要这么多时间...这似乎是一些 TF 优化,因为如 ...

为什么 PyTorch 在预加载所有小批量列表时推理速度更快?

[英]Why is PyTorch inference faster when preloading all mini-batches to list?

在对不同的数据加载器进行基准测试时,我注意到 PyTorch 内置数据加载器有一些奇怪的行为。 我在带有 MNIST 数据集的仅 cpu 机器上运行以下代码。 当小批量预加载到列表而不是在迭代期间获取时,我的 model 中的简单前向传递似乎要快得多: 来自 Torch 分析器的最有趣的 outp ...

有没有办法在 Linux 上详细查看程序执行期间发生的情况?

[英]Is there a way to see what happens during program execution in detail on Linux?

我正在尝试调试程序的性能。 理想的是有一种方法可以详细查看线程何时执行有用的工作,何时被页面错误阻塞,何时执行一些内存写入和读取等...... 我只是想详细了解发生了什么。 可能吗? ...

如何在不使用委托的情况下将方法作为参数传递并立即调用它?

[英]How to pass a method as a parameter without using delegates and call it instantly?

简而言之:我想将任何方法传递给静态方法并从那里调用它,但我对委托不满意,因为它们不是立即执行的,它们有延迟。 我需要代码行的完美排序。 详细信息:例如,如果我尝试通过将一些被测方法作为委托传递来执行手动内存分析,它会失败,显示 0 KB 的已分配内存,因为委托没有在代码中按顺序执行,就像正常的函数 ...

Memory R 循环中的(取消)分配(没有数据帧或增长的对象)

[英]Memory (de)allocation in R loops (without dataframes or growing objects)

考虑一个简单的 function,它采用一组概率p并计算p*(1-p) ,并将其分配给pq 。 如果我调用一次,分析时间和 memory 分配 我看到它需要一些时间和 memory,并且需要一些垃圾收集。 好的。 但是,如果我调用它两次 它需要大约两倍的 memory 和时间,并且<GC ...

如何将 gprof 分析数据可视化为火焰图?

[英]How do one visualize gprof profiling data as a flamegraph?

我已经使用GNU gprof分析了一个 C++ 应用程序。 可视化数据真的很好,为此我找到了一个 python 实用程序 gprof2dot,它从 gprof 数据创建一个图形,很好,但是,最终我想将数据可视化为flamegraph ,由Brendan Gregg推广. 然而,令我大吃一惊的是,我 ...

分析生产中 ASP.NET Core 6 站点的内存使用情况

[英]Profiling memory usage of ASP.NET Core 6 site in production

我们在生产环境中有一个 ASP.NET Core 6 站点,其中内存和 CPU 使用情况如下所示: cpu 峰值似乎更多是内存不可用的结果,我们在日志中看到OutOfMemoryException 。 我们正在使用 Application Insights,但我找不到查看内存中存储了哪些数据的方 ...

Delphi - 测量单元每行的执行时间

[英]Delphi - Measure execution time per line of an unit

目前我正在研究 Delphi 计算模块 (bpl) 的性能改进。 在过去的几天里,我发现了几行缓慢的代码。 我们将执行时间从 8 分钟缩短到 3 分钟。 我通过在所有单元中添加秒表来发现较慢的代码行,但进行这些更改非常耗时。 结尾; 计算单位为百行。 我希望能够装饰一个单元,找到这些缓慢的代码行。 ...

如何使用 CUPTI 获取与 Launch Metrics、Source Metrics 和 Instructions Per Opcode Metrics 相关的指标

[英]How to use CUPTI to get metrics related to Launch Metrics, Source Metrics and Instructions Per Opcode Metrics

我能够使用 ncu 获取与启动指标、源指标和每个操作码指标的指令相关的指标(在此处找到)。 但是,在修改示例代码/usr/local/cuda-11.8/extras/CUPTI/samples/callback_profiling/callback_profiling.cu中的METRIC_NAM ...

LLC 负载值与 perf stat 不一致

[英]Inconsistent LLC-loads value with perf stat

我正在尝试使用 perf stat 来获取硬件计数器信息,以便在英特尔至强处理器(基于 Skylake)上进行基准测试。 当我提供-e LLC-loads -d -d -d标志时,perf stat 打印出 LLC-loads 两次 - 一次是由于-e LLC-loads ,另一次是由于打开了详细标 ...

NVIDIA Nsight Systems 中有没有办法限制显示的线程?

[英]Is there a way in NVIDIA Nsight Systems to limit threads displayed?

我有一个有数千个线程的项目,但我想使用 Nsight 系统来分析 CUDA 代码。 然而,加载报告需要一段时间,我认为这是由于大量线程信息,以及我目前不关心信息的那些线程的所有视觉混乱。 有没有办法在 Nsight 系统 GUI 中加载报告之前切换收集线程信息或限制它? ...

如何分析 VSCode? 它在空闲时吃掉了太多的 CPU

[英]How to profile VSCode? It eats too much CPU in idle

从最近开始,即使在空闲模式下,VSCode 也开始占用每个窗口 90% 的 CPU。 我怀疑,某些插件可能对此负责。 有没有办法以某种方式分析 VSCode,以便我找到有问题的插件? 我在另一台机器上使用最少的插件进行了全新安装,但问题不存在。 ...

用于分析 SAP HANA 数据库中所有表/视图(可选择按名称过滤)的所有列(可选择按名称过滤)的查询

[英]Query for profiling all columns (optionally filtered by name) on all tables/views (optionally filtered by name) in SAP HANA database

(为奇怪的格式道歉 - 试图在这里变得更好!) 我正在寻找有关如何最好地实现标题中列出的目标的建议,例如 output 的效果如下: 表名列名配置文件类型配置文件类型计数测试台测试列空计数 278 测试台测试列唯一值 71 测试表2 测试栏2 空计数 0 测试表2 测试栏2 唯一值 25 ... ...

使用 OpenCL 获取我的 OpenCL 的能耗 Kernel

[英]Using OpenCL to get the energy consumption of my OpenCL Kernel

我正在尝试估算在 AMD Radeon RX Vega GPU 上运行的 OpenCL Kernel 的功耗。有没有办法直接通过 OpenCL 访问功耗? 我尝试使用分析器,但找不到支持 amd GPU 或 opencl 的分析器。 所以如果可能的话,我想通过编程来完成 ...


 
粤ICP备18138465号  © 2020-2023 STACKOOM.COM