从多列文件中提取行

Question

I have the following format of data set: 我有以下格式的数据集：

Identified_____ID#2357_____ReadSequence:1238  
Unknown_____0_____ReadSequence:0979  
Unknown_____0_____ReadSequence:5476  
Identified_____ID#567899_____ReadSequence:4376

Using awk command, how can I extract the ReadSequences but only lines which have been identified (based on the first column entries)? 使用awk命令，如何提取ReadSequences但仅提取已识别的行（基于第一列条目）？

Answer 1

$ awk -F"_____" '$1=="Identified" {print $3}' test.in 
ReadSequence:1238
ReadSequence:4376

If you only want the ReadSequence ids, gsub is your friend: 如果只需要ReadSequence ID，则gsub是您的朋友：

$ awk -F"_____" '$1=="Identified" {gsub(/^.*:/,"",$3); print $3}' test.in 
1238
4376

Answer 2

awk -F'_____' '/^Identified/ {print $NF}' file
ReadSequence:1238
ReadSequence:4376

OR 要么

awk '/^Identified/ {split($0,a,"_____");print a[3]}' info
ReadSequence:1238
ReadSequence:4376

OR if you only want to read the value of ReadSequence then 或者，如果您只想读取ReadSequence的值，则

awk -F'_____' '/^Identified/ {split($NF,a,":"); print a[2]}' file
1238
4376

Answer 3

$ awk -F':' '/^Identified/{print $NF}' file
1238
4376

从多列文件中提取行

问题描述

3 个解决方案

解决方案1
2 2016-07-20 08:41:10

解决方案2
1 2016-07-20 08:42:36

解决方案3
0 2016-07-20 18:06:37

从多列文件中提取行

问题描述

3 个解决方案

解决方案1 2 2016-07-20 08:41:10

解决方案2 1 2016-07-20 08:42:36

解决方案3 0 2016-07-20 18:06:37

解决方案1
2 2016-07-20 08:41:10

解决方案2
1 2016-07-20 08:42:36

解决方案3
0 2016-07-20 18:06:37