根據2,3,4列中的值總和獲得唯一行

Question

我為R中的分析制作了一個字典，該字典需要具有唯一的標簽。

我的數據看起來像這樣

Labels  t1  t2  t3
gene1   0.000000E+00    0.000000E+00    1.138501E-01
gene2   0.000000E+00    0.000000E+00    9.550272E-02
gene3   0.000000E+00    1.851936E-02    1.019907E-01
gene4   8.212816E-02    0.000000E+00    6.570984E+00
gene5   1.282434E-01    0.000000E+00    6.240799E+00
gene6   2.918929E-01    8.453281E-01    3.387610E+00
gene7   0.000000E+00    1.923038E-01    0.000000E+00
gene7   0.000000E+00    00000000E+00    0.000000E+00
gene8   1.135057E+00    0.000000E+00    2.491100E+00
gene9   7.935625E-01    1.070320E-01    2.439292E+00
gene10  5.046790E+00    0.000000E+00    2.459273E+00
gene11  3.293614E-01    0.000000E+00    2.380152E+00
gene11  3.293614E-01    0.000000E+00    2.380152E+00
gene12  0.000000E+00    0.000000E+00    1.474757E-01
gene13  0.000000E+00    0.000000E+00    1.521591E-01
gene14  0.000000E+00    9.968809E-02    8.387166E-01
gene15  0.000000E+00    1.065761E-01    0.000000E+00

在此表中，標簽gene7出現了兩次，在這種情況下，必須將所有列中的值相加，並選擇具有最高值的值，而將另一個丟棄。 如果是平局，如基因11一樣，應首先選擇一個，其余的則丟棄。

我嘗試使用-u k2V，2和許多組合進行排序，但是失敗了。

awk / python中的任何一個內襯

友善的幫助

謝謝

Answer 1

使用my.data <- cbind(my.data, sum=sum(my.data[,c(2:4)])然后為my.data <- my.data[order(my.data$sum),]添加一個列，用於第2,3,4列的總和最后， my.data <- my.data[order(my.data$sum),]使用as.vector(table(my.data))僅保留最高編號的值，不需要awk或python或任何其他工具。 R做得很好。

Answer 2

這行：

awk 'NR>1{s=$2+$3+$4;if(($1 in a && s>m[$1])|| !($1 in a)){m[$1]=s;a[$1]=$0}}END{for(x in a)print a[x]}' file|sort -V

輸出：

gene1   0.000000E+00    0.000000E+00    1.138501E-01
gene2   0.000000E+00    0.000000E+00    9.550272E-02
gene3   0.000000E+00    1.851936E-02    1.019907E-01
gene4   8.212816E-02    0.000000E+00    6.570984E+00
gene5   1.282434E-01    0.000000E+00    6.240799E+00
gene6   2.918929E-01    8.453281E-01    3.387610E+00
gene7   0.000000E+00    1.923038E-01    0.000000E+00
gene8   1.135057E+00    0.000000E+00    2.491100E+00
gene9   7.935625E-01    1.070320E-01    2.439292E+00
gene10  5.046790E+00    0.000000E+00    2.459273E+00
gene11  3.293614E-01    0.000000E+00    2.380152E+00
gene12  0.000000E+00    0.000000E+00    1.474757E-01
gene13  0.000000E+00    0.000000E+00    1.521591E-01
gene14  0.000000E+00    9.968809E-02    8.387166E-01
gene15  0.000000E+00    1.065761E-01    0.000000E+00

分解：

awk 'NR>1{s=$2+$3+$4;
    if(($1 in a && s>m[$1])|| !($1 in a)){m[$1]=s;a[$1]=$0}
}END{for(x in a)print a[x]}' file|sort -V

根據2,3,4列中的值總和獲得唯一行

問題描述

2 個解決方案

解決方案1
2 2013-05-07 22:06:17

解決方案2
2 已采納 2013-05-07 22:15:45

根據2,3,4列中的值總和獲得唯一行

問題描述

2 個解決方案

解決方案1 2 2013-05-07 22:06:17

解決方案2 2 已采納 2013-05-07 22:15:45

解決方案1
2 2013-05-07 22:06:17

解決方案2
2 已采納 2013-05-07 22:15:45