LINUX AWK命令合并基因的同工型

Question

我有以下格式的大文件：

chr1    11873   12227   DDX11L1 .   +
chr1    12612   12721   DDX11L1 .   +
chr1    13220   14409   DDX11L1 .   +
chr1    14361   14829   WASH7P  .   -
chr1    14969   15038   WASH7P  .   -
chr1    15795   15947   WASH7P  .   -
chr1    16606   16765   WASH7P  .   -
chr1    16857   17055   WASH7P  .   -
chr1    17232   17368   WASH7P  .   -
chr1    17368   17436   MIR6859-2   .   -
chr1    17368   17436   MIR6859-1   .   -
chr1    17605   17742   WASH7P  .   -
chr1    17914   18061   WASH7P  .   -
chr1    18267   18366   WASH7P  .   -
chr1    24737   24891   WASH7P  .   -
chr1    29320   29370   WASH7P  .   -
chr1    34610   35174   FAM138A .   -
chr1    34610   35174   FAM138F .   -
chr1    35276   35481   FAM138A .   -
chr1    35276   35481   FAM138F .   -
chr1    35720   36081   FAM138A .   -
chr1    35720   36081   FAM138F .   -
chr1    69090   69093   OR4F5   .   +
chr1    69090   70005   OR4F5   .   +
chr1    69090   70008   OR4F5   .   +
chr1    70005   70008   OR4F5   .   +
chr1    134772  139696  LOC729737   .   -
chr1    139789  139847  LOC729737   .   -

我想合并一个基因的所有同工型（第4列）的坐标。 如果第4列中的值在该列中相同，则我希望第一个匹配行的第2列中的值和最后一个匹配行的第3列中的值，因此输出将变为。

chr1    11873   14409   DDX11L1 .   +
chr1    14361   29370   WASH7P  .   -
chr1    17368   17436   MIR6859-2   .   -
chr1    17368   17436   MIR6859-1   .   -
chr1    34610   36081   FAM138A .   -
chr1    34610   36081   FAM138F .   -
chr1    69090   70008   OR4F5   .   +
chr1    134772  139847  LOC729737   .   -

在此先感谢您，期待您的积极回应。

Answer 1

我假设您想要最小的col2和最大的col3。

sort -k4 -k2n|
awk '$4!=p4{if(NR>1)print p1,min,max,p4,p5,p6;
            p1=$1;min=$2;max=$3;p4=$4;p5=$5;p6=$6;}
     $4=p4{if($3>max)max=$3}
     END{print p1,min,max,p4,p5,p6}'|
sort -k2n

Answer 2

使用这个awk ：

awk '!a[$4]{b[i++]=$0} {a[$4]=$3} END{for(i in b){$0=b[i];$3=a[$4];print}}' file

!a[$4] ：适用于第四个字段最先出现的每一行
- b[i++]=$0 ：在这种情况下，用这些行填充数组b
{a[$4]=$3}适用于每一行。 数组a填充有第三个字段，完成后将存储第三个字段的最后一个值。
END{...}所有行后，将执行END{...}
- for(i in b)循环通过数组b 。
- $0=b[i]设置$0变量
- $3=a[$4]第三个字段应该是最后一次出现
- print打印线

输出：

chr1 11873 14409 DDX11L1 . +
chr1 14361 29370 WASH7P . -
chr1 17368 17436 MIR6859-2 . -
chr1 17368 17436 MIR6859-1 . -
chr1 34610 36081 FAM138A . -
chr1 34610 36081 FAM138F . -
chr1 69090 70008 OR4F5 . +
chr1 134772 139847 LOC729737 . -

如果您希望将其分栏，请使用以下命令：

awk ... | column -t

Answer 3

这可能对您有用（GNU sed和sort）：

sort -sk4,4 file |
sed -r ':a;$!N;s/^((\S+\s+){2})\S+\s+(\S+)\s+.*\s+(\S+\s+\3)/\1\4/;ta;P;D'|
sort -sk2,2n

按第四列对文件进行排序，但保留原始顺序。

一次读取两行，将匹配第四列的行减少为一行，并保留最新行的第三列。

通过第二列对上述过程的输出进行数字排序（再次保留原始顺序）。

LINUX AWK命令合并基因的同工型

问题描述

3 个解决方案

解决方案1
2 2015-10-09 13:36:38

解决方案2
2 2015-10-09 13:38:53

解决方案3
1 2015-10-10 08:44:32

LINUX AWK命令合并基因的同工型

问题描述

3 个解决方案

解决方案1 2 2015-10-09 13:36:38

解决方案2 2 2015-10-09 13:38:53

解决方案3 1 2015-10-10 08:44:32

解决方案1
2 2015-10-09 13:36:38

解决方案2
2 2015-10-09 13:38:53

解决方案3
1 2015-10-10 08:44:32