优化grep，awk和sed shell的东西

Question

我试图从“IPCop”总结日志文件中的不同端口的流量，所以我为我的shell编写和命令，但我认为可以优化命令。

首先来自我的日志文件的一行：

01/00:03:16 kernel INPUT IN=eth1 OUT= MAC=xxx SRC=xxx DST=xxx LEN=40 TOS=0x00 PREC=0x00 TTL=98 ID=256 PROTO=TCP SPT=47438 DPT=1433 WINDOW=16384 RES=0x00 SYN URGP=0

现在我用以下Command命令包含端口1433的所有长度的总和

grep 1433 log.dat|awk '{for(i=1;i<=10;i++)if($i ~ /LEN/)print $i};'|sed 's/LEN=//g;'|awk '{sum+=$1}END{print sum}'

我需要for循环，因为LEN-col始终不在同一位置。

有关优化此命令的任何建议吗？

关心雷内

Answer 1

由于我没有代表为Noufal Ibrahims回答添加评论，这是使用Perl的更自然的解决方案。

perl -ne '$sum += $1 if /LEN=(\d+)/; END { print $sum; }' log.dat

@Noufal你可以让perl做所有艰苦的工作;）。

Answer 2

如果它真的需要优化，就像它运行得如此缓慢：你应该用更通用的语言重写它。 即使是AWK也可以这样做，但我建议使用更接近Perl或Java的长期运行提取器。

你可以做的一个改变是，不是使用不必要的SED和第二次AWK调用，而是将END移动到第一个AWK调用中，并使用split（）从LEN = num中提取数字。 并将其添加到累加器。 像split这样的东西（$ i，x，“=”）; sum + = x [2]。

主要问题是你不能写awk'/ LEN=(...)/ {sum + = var匹配...}'。

Answer 3

只要在管道中有grep / sed / awk组合，就可以简化为单个awk或perl命令。 这是一个awk解决方案：

gawk -v dpt=1433 '
    $0 ~ dpt {
        for (i=1; i<=NF; i++) {
            if ($i ~ /^LEN=[[:digit:]]+/) {
                split($i, ary, /=/)
                sum += ary[2]
                next
            }
        } 
    } 
    END {print sum}
' log.dat

Answer 4

如果你正在使用gawk，你可以使用\\<来避免需要for循环，匹配（ - ）函数来找到子串“\\ <LEN =。* \\>”，即投出你想要的字段和substr来计算出LEN的参数。 然后，您可以使用单个awk调用来执行所有操作。

后记

我上面给出的正则表达式不起作用，因为=字符不是单词的一部分。 以下awk脚本确实有效：

/1433/ { f=match($0,/ LEN=[[:digit:]]+ /); v=substr($0,RSTART+5,RLENGTH-6); s+=v; }
END    { print "sum=" s; }

Answer 5

如果这些将在一行上，您可以使用perl提取LOG编号并对其求和。

perl -e '$f = 0; while (<>) {/.*LEN=([0-9]+).*/ ; $f += $1;} print "$f\n";' input.log

我为糟糕的Perl道歉。 我根本不是Perl的人。

优化grep，awk和sed shell的东西

问题描述

5 个解决方案

解决方案1
5 2010-06-01 12:12:38

解决方案2
3 已采纳 2010-06-01 12:09:14

解决方案3
2 2010-06-01 17:02:55

解决方案4
1 2010-06-01 11:57:34

解决方案5
0 2010-06-01 11:57:52

优化grep，awk和sed shell的东西

问题描述

5 个解决方案

解决方案1 5 2010-06-01 12:12:38

解决方案2 3 已采纳 2010-06-01 12:09:14

解决方案3 2 2010-06-01 17:02:55

解决方案4 1 2010-06-01 11:57:34

解决方案5 0 2010-06-01 11:57:52

解决方案1
5 2010-06-01 12:12:38

解决方案2
3 已采纳 2010-06-01 12:09:14

解决方案3
2 2010-06-01 17:02:55

解决方案4
1 2010-06-01 11:57:34

解决方案5
0 2010-06-01 11:57:52