簡體   English   中英

如何使用bash對第一列中具有共享子字符串的項目的列值求和

[英]How to sum column values of items with shared substring in first column using bash

我正在嘗試對第一列中具有共享子字符串的行的數據幀行中的值求和。 數據如下所示:

ID Data_1 Data_2 Data_3 Data_4 
SRW8002300_T01 1 2 3 4
SRW8002300_T02 1 2 3 4
SRW8002300_T03 1 2 3 4
SRW8004500_T01 1 2 3 4
SRW8004500_T02 1 2 3 4
SRW8006000_T01 1 2 3 4

當 ID 的第一部分(下划線之前的部分)被共享時,我想對第 2 到第 5 列的值求和。 所以上面的將變成:

ID Data_1 Data_2 Data_3 Data_4 
SRW8002300 3 6 9 12
SRW8004500 2 4 6 8
SRW8006000 1 2 3 4

到目前為止,我已經有了一個 awk 命令,可以在下划線后去除字符串的 ID:

awk '{print $1}' filename | awk -F'_' '{print $1}'

如果第一列中的值是共享的,則另一個對列值求和:

awk '{a[$1]+=$2;b[$1]+=$3;c[$1]+=$4;d[$1]+=$5} END {for (i in a) print i, a[i], b[i], c[i], d[i]}' filename

但是,我正在努力結合這兩個命令來創建一個新的數據框,其中包含共享 ID 的總和值。

我通常用 python 編寫代碼,但我試圖養成為這些類型的任務編寫 bash 腳本的習慣。

感謝您的任何幫助。

假設您的鍵值是連續的,如您的示例輸入所示:

$ cat tst.awk
NR==1 { print; next }
{
    curr = $1
    sub(/_.*/,"",curr)

    if ( curr != prev ) {
        prt()
    }

    for (i=2; i<=NF; i++) {
        sum[i] += $i
    }

    prev = curr
}

END { prt() }

function prt() {
    if ( prev != "" ) {
        printf "%s%s", prev, OFS
        for (i=2; i<=NF; i++) {
            printf "%d%s", sum[i], (i<NF ? OFS : ORS)
        }
        delete sum
    }
}

$ awk -f tst.awk file
ID Data_1 Data_2 Data_3 Data_4
SRW8002300 3 6 9 12
SRW8004500 2 4 6 8
SRW8006000 1 2 3 4

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM