![](/img/trans.png)
[英]Write a C program to measure time spent in context switch in Linux OS
[英]How to write a program in C to measure the speed of cache?
编写程序并尝试比较(测量,如果可以)从主存和高速缓存访问数据的时间。
如果你能做到,那么如何衡量每级缓存的速度?
您需要提出一种启发式方法,强制100%(或非常接近)缓存未命中(希望您有缓存失效操作码?)和100%缓存命中。 Hooray,适用于1级缓存。 现在,如何对2级和3级做同样的事情?
严肃地说,如果没有连接到CPU和内存的特殊硬件和跟踪,可能没有办法100%可靠地完成这项工作,但这就是我要做的事情:
将一堆“东西”写入内存中的1个位置 - 足以让您确定它是一致地命中L1缓存并记录时间(这会影响缓存,所以要小心)。 你应该在没有分支的情况下进行这组写操作,以试图摆脱分支预测的不一致性。 那是最好的时间。 现在,每隔一段时间,将缓存行的数据写入已知位置末尾的RAM中的随机远程位置并记录新时间。 希望这需要更长的时间。 在不同时间继续进行此录制,希望您会看到几个倾向于分组的时间。 这些组中的每一个“都可以”显示L2,L3和存储器访问时序的时序。 问题是还有很多其他的东西妨碍了。 操作系统可以上下文切换你并搞砸你的缓存。 中断可能会出现并通过你的时间关闭。 会有很多东西可以抛弃这些价值。 但是,希望您在数据中获得足够的信号以查看它是否有效。
这可能更容易在一个更简单的嵌入式系统上进行,其中OS(如果有的话)不会妨碍你。
这通常需要一些关于缓存的“几何”及其它方面的知识。 除了简单的用户访问系统和依赖于实现的事情(例如比通过标准C clock
机制提供的更精细的时序)之外,对系统进行一些控制也是有帮助的。
这是一个初步的方法:
volatile
以防止编译器优化远程访问,否则将无效。 执行此操作时,通常会看到较小长度的快速速度(每秒读取/写入的字节数),较长的速度较慢。 在超过不同级别的高速缓存的大小的情况下将发生速度降低。 因此,您很可能会看到使用上述技术收集的数据中反映出L1和L2缓存的大小。
以下是一些方法不充分的原因:
看一下cachegrind-valgrind :
Cachegrind模拟程序如何与机器的缓存层次结构和(可选)分支预测器进行交互。 它模拟具有独立的第一级指令和数据缓存(I1和D1)的机器,由统一的二级缓存(L2)支持。 这与许多现代机器的配置完全匹配。
看看他们以某种方式相关的好问题:
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.