AWK 根据 B 列的唯一性计算 A 列的出现次数

Question

我有一个包含几列的文件，我想根据第一列 EX 独有的第二列值来计算一列的出现：

column 10            column 15
orange               New York
green                New York
blue                 New York
gold                 New York
orange               Amsterdam
blue                 New York
green                New York
orange               Sweden
blue                 Tokyo
gold                 New York

我对使用 awk 之类的命令相当陌生，并且希望获得更多实用知识。

我尝试了一些不同的变体

awk '{A[$10 OFS $15]++} END {for (k in A) print k, A[k]}' myfile

但是，不太了解代码，output 不是我所期望的。

我期待 output

orange     3
blue       2
green      1
gold       1

Answer 1

使用 GNU awk。 我假设制表符是您的字段分隔符。

awk '{count[$10 FS $15]++}END{for(j in count) print j}' FS='\t' file | cut -d $'\t' -f 1 | sort | uniq -c | sort -nr

Output：

      3 orange
      2 blue
      1 green
      1 gold

我想它可以更优雅。

Answer 2

单个 GNU awk调用版本（也适用于非 GNU awk，只是不对输出进行排序）：

$ gawk 'BEGIN{ OFS=FS="\t" }
        NR>1 { names[$2,$1]=$1 }
        END { for (n in names) colors[names[n]]++;
              PROCINFO["sorted_in"] = "@val_num_desc";
              for (c in colors) print c, colors[c] }' input.tsv
orange  3
blue    2
gold    1
green   1

根据需要调整列号以匹配真实数据。

使用 sqlite3 的奖励解决方案：

$ sqlite3 -batch -noheader <<EOF
.mode tabs
.import input.tsv names
SELECT "column 10", count(DISTINCT "column 15") AS total
FROM names
GROUP BY "column 10"
ORDER BY total DESC, "column 10";
EOF
orange  3
blue    2
gold    1
green   1

AWK 根据 B 列的唯一性计算 A 列的出现次数

问题描述

2 个解决方案

解决方案1
0 已采纳 2019-11-02 21:25:01

解决方案2
0 2019-11-03 09:44:25

AWK 根据 B 列的唯一性计算 A 列的出现次数

问题描述

2 个解决方案

解决方案1 0 已采纳 2019-11-02 21:25:01

解决方案2 0 2019-11-03 09:44:25

解决方案1
0 已采纳 2019-11-02 21:25:01

解决方案2
0 2019-11-03 09:44:25