awk根據特定的列數據創建包含重復項數的列

Question

在以下data.txt文件中，第二和第三列中的值在幾行中重復（盡管行不相同）：

cat data.txt > 
Julie   Andrews jand    109
Julie   Andrews jand    119
John    Thomas  jd      301
Alex    Tremble atrem   415
Alex    Tremble atrem   3415
Alan    Tremble atrem   215
John    Tomas   jd      302
John    Tomas   jd      3302
John    Tomas   jd      3402
John    Tomas   jd      33302
Alex    Trebe   atrem   416

如何在第2列和第3列的基礎上每行增加第5列以指定最大重復次數？ 例如所需的輸出如下所示：

cat desired.output.txt > 
Julie   Andrews jand    109     2
Julie   Andrews jand    119     2
John    Thomas  jd      301     1
Alex    Tremble atrem   415     3
Alex    Tremble atrem   3415    3
Alan    Tremble atrem   215     3
John    Tomas   jd      302     4
John    Tomas   jd      3302    4
John    Tomas   jd      3402    4
John    Tomas   jd      33302   4
Alex    Trebe   atrem   416     1

當前，我有以下命令，該命令為每個副本創建一個簡單的計數器（但是，這不是所需的輸出）：

awk -F "\t" '{OFS="\t"}{print $0,++cnt[$2,$3]}' data.txt
Julie   Andrews jand    109     1
Julie   Andrews jand    119     2
John    Thomas  jd  301 1
Alex    Tremble atrem   415 1
Alex    Tremble atrem   3415    2
Alan    Tremble atrem   215 3
John    Tomas   jd  302 1
John    Tomas   jd  3302    2
John    Tomas   jd  3402    3
John    Tomas   jd  33302   4
Alex    Trebe   atrem   416 1

Answer 1

對於未排序的文件，最簡單的方法是對輸入文件進行兩次掃描

$ awk -v OFS='\t' 'NR==FNR {count[$2,$3]++; next} 
                           {print $0, count[$2,$3]}' file{,}

Julie   Andrews jand    109     2
Julie   Andrews jand    119     2
John    Thomas  jd      301     1
Alex    Tremble atrem   415     3
Alex    Tremble atrem   3415    3
Alan    Tremble atrem   215     3
John    Tomas   jd      302     4
John    Tomas   jd      3302    4
John    Tomas   jd      3402    4
John    Tomas   jd      33302   4
Alex    Trebe   atrem   416     1

如果文件已排序或太大，則可以收集所有條目並在上下文更改時打印計數。

ps。 請注意， file{,}是file file處理兩次相同文件的bash簡寫形式。

awk根據特定的列數據創建包含重復項數的列

問題描述

1 個解決方案

解決方案1
4 已采納 2016-12-21 16:04:00

awk根據特定的列數據創建包含重復項數的列

問題描述

1 個解決方案

解決方案1 4 已采納 2016-12-21 16:04:00

解決方案1
4 已采納 2016-12-21 16:04:00