AWK 根據 B 列的唯一性計算 A 列的出現次數

Question

我有一個包含幾列的文件，我想根據第一列 EX 獨有的第二列值來計算一列的出現：

column 10            column 15
orange               New York
green                New York
blue                 New York
gold                 New York
orange               Amsterdam
blue                 New York
green                New York
orange               Sweden
blue                 Tokyo
gold                 New York

我對使用 awk 之類的命令相當陌生，並且希望獲得更多實用知識。

我嘗試了一些不同的變體

awk '{A[$10 OFS $15]++} END {for (k in A) print k, A[k]}' myfile

但是，不太了解代碼，output 不是我所期望的。

我期待 output

orange     3
blue       2
green      1
gold       1

Answer 1

使用 GNU awk。 我假設制表符是您的字段分隔符。

awk '{count[$10 FS $15]++}END{for(j in count) print j}' FS='\t' file | cut -d $'\t' -f 1 | sort | uniq -c | sort -nr

Output：

      3 orange
      2 blue
      1 green
      1 gold

我想它可以更優雅。

Answer 2

單個 GNU awk調用版本（也適用於非 GNU awk，只是不對輸出進行排序）：

$ gawk 'BEGIN{ OFS=FS="\t" }
        NR>1 { names[$2,$1]=$1 }
        END { for (n in names) colors[names[n]]++;
              PROCINFO["sorted_in"] = "@val_num_desc";
              for (c in colors) print c, colors[c] }' input.tsv
orange  3
blue    2
gold    1
green   1

根據需要調整列號以匹配真實數據。

使用 sqlite3 的獎勵解決方案：

$ sqlite3 -batch -noheader <<EOF
.mode tabs
.import input.tsv names
SELECT "column 10", count(DISTINCT "column 15") AS total
FROM names
GROUP BY "column 10"
ORDER BY total DESC, "column 10";
EOF
orange  3
blue    2
gold    1
green   1

AWK 根據 B 列的唯一性計算 A 列的出現次數

問題描述

2 個解決方案

解決方案1
0 已采納 2019-11-02 21:25:01

解決方案2
0 2019-11-03 09:44:25

AWK 根據 B 列的唯一性計算 A 列的出現次數

問題描述

2 個解決方案

解決方案1 0 已采納 2019-11-02 21:25:01

解決方案2 0 2019-11-03 09:44:25

解決方案1
0 已采納 2019-11-02 21:25:01

解決方案2
0 2019-11-03 09:44:25