标签[profiling] - 堆栈内存溢出

在虚幻引擎中记录和保存基本 GPU 统计数据的最简单方法？ - easiest way to log and save basic GPU stats in Unreal Engine?

在虚幻引擎编辑器中测试时，我需要在文件中记录基本的 GPU 统计数据（计算时间），以便之后分析它们。最简单的方法是什么？我正在使用 UE 5.1 对蓝图没有偏好，解决方案可以使用或不使用蓝图。我不需要记录同步事件（如果它们也被添加也没关系，我只是不需要它们）。随着时间的推移，我只需要简单的 ...

通用派生实例的成本中心？ - Cost centres for Generic-derived instances?

根据+RTS -p time inherited，我 90% 的执行时间都花在运行一个基于Generic的instance MyClass MyType定义上，对于一个 class 递归超过 100 多个类型/实例。我已经尝试让 GHC 告诉我详细信息，以确定哪些实例速度慢，或者哪些实例被更频繁 ...

使用 Allied Vision Camera 增加实时 stream 的每秒帧数 (FPS)，该相机使用 Vimba SDK for Python - Increase Frames Per Second (FPS) of live stream using Allied Vision Camera that uses Vimba SDK for Python

首先，我得到了 Allied Vision Camera，在 Vimba SDK Python 的帮助下，我正在播放。流式传输的 FPS 约为 12-14，而 Manta G-201C 提供的最大 FPS 为 30。如何达到最大 FPS？首先，在 Vimba Viewer App 的帮助下，我 ...

Adam 优化器在几乎相同的 model 上花费更长的时间来应用梯度 - Adam optimizer takes much longer on the almost the same model to apply gradients

我有两个几乎是镜面反射的模型，如果不是最后一层的话，其中一个是Dense(1, "linear")而另一个是Dense(4, "softmax") .. 代码如下：但是，当我分析我的代码时，我得到以下统计信息：现在，我想知道为什么应用第一个渐变需要这么多时间...这似乎是一些 TF 优化，因为如 ...

跟踪方法和函数的调用 - Track invocations of methods and functions

我正在寻找允许跟踪方法和函数调用的库。将其视为提供called和call_count属性的Mock 。所需最终结果示例：s = MagicProxyLib() @s class MyClass: def not_called(self): print("This is ...

为什么 PyTorch 在预加载所有小批量列表时推理速度更快？ - Why is PyTorch inference faster when preloading all mini-batches to list?

在对不同的数据加载器进行基准测试时，我注意到 PyTorch 内置数据加载器有一些奇怪的行为。我在带有 MNIST 数据集的仅 cpu 机器上运行以下代码。当小批量预加载到列表而不是在迭代期间获取时，我的 model 中的简单前向传递似乎要快得多：来自 Torch 分析器的最有趣的 outp ...

有没有办法在 Linux 上详细查看程序执行期间发生的情况？ - Is there a way to see what happens during program execution in detail on Linux?

我正在尝试调试程序的性能。理想的是有一种方法可以详细查看线程何时执行有用的工作，何时被页面错误阻塞，何时执行一些内存写入和读取等...... 我只是想详细了解发生了什么。可能吗？ ...

Xcode Instruments 中未显示兴趣点 - Points of interest not showing in Xcode Instruments

Xcode 中未显示“兴趣点”。可能的原因是什么？示例（来自此答案）： ...

如何使用 Profiler 在 Unity 中分析 Start() 函数 - How to use Profiler to profile a Start() function in Unity

当我在Update()中使用Profiler.BeginSample("Update Example")和Profiler.EndSample()时，我可以在探查器窗口的Update.ScriptRunBehaviorUpdate中看到“更新示例” 。但是当我在Start()中使用Profiler ...

如何在不使用委托的情况下将方法作为参数传递并立即调用它？ - How to pass a method as a parameter without using delegates and call it instantly?

简而言之：我想将任何方法传递给静态方法并从那里调用它，但我对委托不满意，因为它们不是立即执行的，它们有延迟。我需要代码行的完美排序。详细信息：例如，如果我尝试通过将一些被测方法作为委托传递来执行手动内存分析，它会失败，显示 0 KB 的已分配内存，因为委托没有在代码中按顺序执行，就像正常的函数 ...

Memory R 循环中的（取消）分配（没有数据帧或增长的对象） - Memory (de)allocation in R loops (without dataframes or growing objects)

考虑一个简单的 function，它采用一组概率p并计算p*(1-p) ，并将其分配给pq 。如果我调用一次，分析时间和 memory 分配我看到它需要一些时间和 memory，并且需要一些垃圾收集。好的。但是，如果我调用它两次它需要大约两倍的 memory 和时间，并且<GC ...

如何将 gprof 分析数据可视化为火焰图？ - How do one visualize gprof profiling data as a flamegraph?

我已经使用GNU gprof分析了一个 C++ 应用程序。可视化数据真的很好，为此我找到了一个 python 实用程序 gprof2dot，它从 gprof 数据创建一个图形，很好，但是，最终我想将数据可视化为flamegraph ，由Brendan Gregg推广. 然而，令我大吃一惊的是，我 ...

分析生产中 ASP.NET Core 6 站点的内存使用情况 - Profiling memory usage of ASP.NET Core 6 site in production

我们在生产环境中有一个 ASP.NET Core 6 站点，其中内存和 CPU 使用情况如下所示： cpu 峰值似乎更多是内存不可用的结果，我们在日志中看到OutOfMemoryException 。我们正在使用 Application Insights，但我找不到查看内存中存储了哪些数据的方 ...

Delphi - 测量单元每行的执行时间 - Delphi - Measure execution time per line of an unit

目前我正在研究 Delphi 计算模块 (bpl) 的性能改进。在过去的几天里，我发现了几行缓慢的代码。我们将执行时间从 8 分钟缩短到 3 分钟。我通过在所有单元中添加秒表来发现较慢的代码行，但进行这些更改非常耗时。结尾; 计算单位为百行。我希望能够装饰一个单元，找到这些缓慢的代码行。 ...

如何使用 CUPTI 获取与 Launch Metrics、Source Metrics 和 Instructions Per Opcode Metrics 相关的指标 - How to use CUPTI to get metrics related to Launch Metrics, Source Metrics and Instructions Per Opcode Metrics

我能够使用 ncu 获取与启动指标、源指标和每个操作码指标的指令相关的指标（在此处找到）。但是，在修改示例代码/usr/local/cuda-11.8/extras/CUPTI/samples/callback_profiling/callback_profiling.cu中的METRIC_NAM ...

LLC 负载值与 perf stat 不一致 - Inconsistent LLC-loads value with perf stat

我正在尝试使用 perf stat 来获取硬件计数器信息，以便在英特尔至强处理器（基于 Skylake）上进行基准测试。当我提供-e LLC-loads -d -d -d标志时，perf stat 打印出 LLC-loads 两次 - 一次是由于-e LLC-loads ，另一次是由于打开了详细标 ...

NVIDIA Nsight Systems 中有没有办法限制显示的线程？ - Is there a way in NVIDIA Nsight Systems to limit threads displayed?

我有一个有数千个线程的项目，但我想使用 Nsight 系统来分析 CUDA 代码。然而，加载报告需要一段时间，我认为这是由于大量线程信息，以及我目前不关心信息的那些线程的所有视觉混乱。有没有办法在 Nsight 系统 GUI 中加载报告之前切换收集线程信息或限制它？ ...

如何分析 VSCode？它在空闲时吃掉了太多的 CPU - How to profile VSCode? It eats too much CPU in idle

从最近开始，即使在空闲模式下，VSCode 也开始占用每个窗口 90% 的 CPU。我怀疑，某些插件可能对此负责。有没有办法以某种方式分析 VSCode，以便我找到有问题的插件？我在另一台机器上使用最少的插件进行了全新安装，但问题不存在。 ...

用于分析 SAP HANA 数据库中所有表/视图（可选择按名称过滤）的所有列（可选择按名称过滤）的查询 - Query for profiling all columns (optionally filtered by name) on all tables/views (optionally filtered by name) in SAP HANA database

（为奇怪的格式道歉 - 试图在这里变得更好！）我正在寻找有关如何最好地实现标题中列出的目标的建议，例如 output 的效果如下：表名列名配置文件类型配置文件类型计数测试台测试列空计数 278 测试台测试列唯一值 71 测试表2 测试栏2 空计数 0 测试表2 测试栏2 唯一值 25 ... ...

使用 OpenCL 获取我的 OpenCL 的能耗 Kernel - Using OpenCL to get the energy consumption of my OpenCL Kernel

我正在尝试估算在 AMD Radeon RX Vega GPU 上运行的 OpenCL Kernel 的功耗。有没有办法直接通过 OpenCL 访问功耗？我尝试使用分析器，但找不到支持 amd GPU 或 opencl 的分析器。所以如果可能的话，我想通过编程来完成 ...