簡體 English 中英

日志文件中的百分比差異

[英]Percent difference in log files

原文 2012-04-13 19:16:33 5 2 regex/ perl/ grep

瀏覽日志文件時，我經常一次又一次遇到相同的錯誤消息。 當然，由於時間戳，用戶名，IP地址等原因，兩行永遠不會相同。

我正在尋找一種設置“差異百分比”的方法，並忽略任何說與已報告的錯誤消息90％相似的行。 另一個想法是也總是忽略時間戳差異。

程序：

用戶輸入搜索詞（正則表達式或簡單文本）
用戶輸入容差
[開始]
Grep找到與搜索詞匹配的字符串並將其發送到新的文本文件
Grep繼續搜索日志，並找到相同的錯誤消息。 差異可能是時間戳記，日期和用戶名。 由於該行與新文件中的行至少相似90％，因此grep不會將其復制過來並繼續搜索
Grep查找與搜索詞匹配的新行。 該行的相似度小於90％，因此它將被復制到新文件，並成為grep與未來結果匹配的另一行。

*編輯：對不起，如果我第一次不清楚。 如果需要的話，我會很樂意解釋。

謝謝。

Log.1-DD：MM：YYYY HH：MM：SS：MS錯誤-用戶無法通過IPADDRESS登錄
Log.1-DD：MM：YYYY HH：MM：SS：MS引導時硬件失敗
Log.2-DD：MM：YYYY HH：MM：SS：MS資源過薄，警告-檢查RAM

2 個解決方案

我不知道任何完整的即用型解決方案，但Text :: Levenshtein和類似算法可以幫助您弄清楚一個通用字符串與另一個通用字符串的相似之處。

另一個想法是使用時間戳緩存您的日志消息，因此您不會重復過去（例如一分鍾）中看到的消息。

my %msg_cache = ();
sub log_filter {
    my $msg = shift;
    if (defined($msg_cache{$msg}) && $msg_cache{$msg} < time-60) {
        # we've logged this message in the last minute - skip
        return;
    }
    $msg_cache{$msg} = time;
    return 1;
}

解析自定義日志文件

[英]Parsing custom log files

合並重疊的日志文件

[英]consolidating overlapping log files

解析日志文件

[英]Parsing log files

將Sendmail日志文件加載到pandas

[英]Load Sendmail log files to pandas

從日志文件中刪除日期

[英]Remove date from log files

讀取 .log 文件並顯示數據

[英]reading .log files and displaying the data

Grep日志文件中的多個單詞

[英]Grep for multiple words in log files

Mitel 的 Powershell 正則表達式日志文件

[英]Powershell Regex Log Files for Mitel

無法通過日志輪換從選定的日志文件中搜索字符串

[英]Unable to search string from selected log files with log rotation

Bash：刪除除最后10個日志文件外的所有文件

[英]Bash: remove all but last 10 log files

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 解析自定義日志文件合並重疊的日志文件解析日志文件將Sendmail日志文件加載到pandas 從日志文件中刪除日期讀取 .log 文件並顯示數據 Grep日志文件中的多個單詞 Mitel 的 Powershell 正則表達式日志文件無法通過日志輪換從選定的日志文件中搜索字符串 Bash：刪除除最后10個日志文件外的所有文件

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM