cost 403 ms
為什么 wincachegrind 給了我錯誤的 curl_exec 累積時間?

[英]Why is wincachegrind giving me the wrong cumulative time for curl_exec?

我正在為這種明顯的差異而絞盡腦汁: 我的頁面加載時間大約為 8 秒。 Wincachegrind 說我的頁面只需要 0.8 秒 我最終在 kcachegrind 中加載了相同的 cachegrind 文件,並獲得了與實際頁面加載一致的結果。 那么為什么 wincachegrind 會 ...

2019-12-23 18:21:32   1   37    cachegrind  
如何確定我的程序中的緩慢是否是CPU緩存問題(在Linux上)?

[英]How can I pinpoint if the slowness in my program is a CPU cache issue (on Linux)?

我目前正試圖在我的一個C程序中理解一些非常奇怪的行為。 顯然,在它結尾處添加或刪除看似無關緊要的行會大大影響程序其余部分的性能。 我的程序看起來有點像這樣: 理論上,主函數末尾的fclose(input)行無關緊要,因為OS無論如何都應該在程序結束時自動關閉文件。 但是我觀察到 ...

Wincachegrind給出了一個錯誤

[英]Wincachegrind gives an error

當我嘗試使用wincachegrind並獲取cachegrind文件時,它返回 找不到通話目標。 cachegrind.out行號:68 誰知道怎么解決這個問題? 更新,這是錯誤的屏幕截圖: 單擊此鏈接 ...

為什么cachegrind不是完全確定的?

[英]Why isn't cachegrind completely deterministic?

受SQLite的啟發 ,我正在尋找使用valgrind的“cachegrind”工具來進行可重現的性能基准測試。 它輸出的數字比我發現的任何其他計時方法穩定得多,但它們仍然不具有確定性。 舉個例子,這是一個簡單的C程序: 如果我編譯它並在cachegrind下運行它,我得到以下結果: ...

在OpenJDK JVM上運行cachegrind

[英]Running cachegrind on OpenJDK JVM

我想使用cachegrind在OpenJDK JVM上進行一些性能分析。 (順便說一句,如果這不是一個好主意,我想知道為什么。) 問題在於它會不斷觸發JVM中的斷言。 所以我該怎么做才能使用cachegrind運行。 否則,請告訴我為什么這行不通。 並且,如果您可以建議使用cach ...

在Valgrind中限制Cachegrind的數據收集

[英]Limiting data collection of Cachegrind, in Valgrind

眾所周知, valgrind套件的callgrind分析工具通過命令行指令callgrind_control -i on或callgrind_control -i off提供了啟動和停止數據收集的可能性。 例如,以下代碼將僅在小時后收集數據。 cachegrind工具有類似的選擇嗎? ...

我不明白cachegrind與perf工具之間的緩存缺失計數

[英]I don't understand cache miss count between cachegrind vs. perf tool

我正在研究使用簡單的微基准測試緩存效果。 我認為如果N大於緩存大小,那么緩存在每個第一個讀取緩存行都有一個未命中操作。 在我的機器中,緩存行大小= 64Byte,所以我認為完全緩存發生N / 8未命中操作和緩存研磨顯示。 但是,perf工具顯示不同的結果。 它只發生34,265次高 ...

如何在c ++中編寫指令緩存友好程序?

[英]How to write instruction cache friendly program in c++?

最近Herb Sutter就“現代C ++:你需要知道什么”發表了精彩演講。 本次演講的主題是效率以及數據位置和訪問內存的重要性。 他還解釋了內存(數組/向量)的線性訪問如何被CPU所喜愛。 他從另一個經典參考“Bob Nystrom的游戲表演”中就此主題舉了一個例子。 閱讀這些文章 ...

MySQL會話的調用圖

[英]call graph for MySQL sessions

我正在嘗試創建MySQL客戶端連接的valgrind (cachegrind)分析。 我正在使用--trace-children=yes運行valgrind 。 我想找到的是內部方法調用之一,以便在使用時查看調用圖... 運行valgrind --trace-children=y ...

QCacheGrind源代碼路徑錯誤

[英]QCacheGrind source code path wrong

試圖用QCacheGrind配置我的代碼,一切都很好,但我看不到程序中的源代碼。 由於某種原因,源代碼路徑是錯誤的。 現在它是cachegrind file location + php file location 它應該只是php file location ...

為什么cachegrind忽略了L3緩存,這與文檔相矛盾?

[英]Why is the L3 cache ignored by cachegrind, contradicting documentation?

我想了解人們如何進行緩存優化,我被朋友建議cachegrind作為實現此目標的有用工具。 Valgrind的是一個CPU模擬器,假定一個2級高速緩存,如所提到這里 ,使用cachegrind時 Cachegrind模擬程序如何與機器的緩存層次結構和(可選)分支預測器進行交互。 ...

你如何解釋cachegrind輸出緩存未命中?

[英]How do you interpret cachegrind output for caching misses?

出於好奇,我運行編碼了幾個不同版本的矩陣乘法,並對它運行cachegrind。 在下面的結果中,我想知道哪些部分是L1,L2,L3未命中和引用以及它們的真正含義是什么? 下面是我的矩陣乘法代碼,萬一有人需要。 矩陣乘法碼。 ...

同一程序在多次運行之間的不同緩存未命中計數

[英]Different cache miss count for a same program between multiple runs

我正在使用Cachegrind來檢索沒有libc編譯的靜態程序的高速緩存未命中數(只是調用我的主函數的_start和asm中的退出syscall)。 該程序是完全確定性的,指令和內存引用不會從一次運行更改為另一次運行。 緩存與LRU作為替換策略完全關聯。 但是,我注意到錯過的次數有時會 ...

使用cachegrind和callgrind的不同讀寫計數

[英]Different read and write count using cachegrind and callgrind

我正在使用Cachegrind,Callgrind和Gem5做一些實驗。 我注意到,gem5將許多訪問記錄為cachegrind的讀取,callgrind的寫入以及讀取和寫入。 讓我們舉一個非常簡單的例子: 我編譯: gcc ex.c --static -o ex ...

使用Xdebug配置cachegrind時遇到問題

[英]Trouble configuring cachegrind with Xdebug

我正在嘗試為cachegrind配置Xdebug但我無法啟用分析器功能以轉儲已執行的網頁。 我正在使用官方指南 (還有一些類似的設置),它似乎不起作用。 我試過我的兩台Linux機器(Ubuntu和Fedora)。 Xdebug工作正常,我可以為應用程序啟動valgrind --t ...

Valgrind與Linux性能比較

[英]Valgrind vs. Linux perf correlation

假設我選擇perf事件instructions , LLC-load-misses , LLC-store-misses 。 進一步假設我測試一個改變其輸入的程序prog 。 對於相同的輸入和相同的計數器, valgrind是否應該為我提供“相同”的功能結果? 也就是說,如果perf一個值 ...

緩存友好方法乘以兩個矩陣

[英]Cache friendly method to multiply two matrices

我打算使用緩存友好的方法將2個矩陣相乘(這將導致更少的未命中) 我發現這可以通過緩存友好的轉置函數來完成。 但我無法找到這個算法。 我可以知道如何實現這一目標嗎? ...

cachegrind計數不能反映實際性能

[英]cachegrind counts do not reflect real performance

同一算法的兩個版本在valgrind / cachegrind下產生不同的總指令獲取計數和周期估計。 差異約為25%。 但是,處理時間非常相似(對於cachegrind-slow版本,實際上更短): 版本1: 版本2: 這是預期的行為嗎? 我如何了解有關版本1為何 ...

緩存未命中的價格是多少

[英]What is the price of a cache miss

我正在分析一些代碼並使用cachegrind來獲取執行中的cachemisses(L2和L3)的數量。 我的問題是如何根據緩存未命中確定等待緩存獲取readdy的時間? 我希望能夠說出“我的代碼獲得90%的cpu利用率”之類的話題 是否可以根據緩存研磨輸出執行此操作? ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM