從.gff文件中使用sed / awk / grep提取子字符串

Question

我有一個包含多行的文件，如下所示：

NODE_1_length   Prodigal:2.6    CDS     11      274     .       +       0       ID=PROKKA_00001;inference=ab initio prediction:Prodigal:2.6;locus_tag=PROKKA_00001;product=hypothetical protein

我想提取ID = PROKKA_ [任何數字]和'product ='之后的所有內容，以獲得如下輸出：

ID=PROKKA_00001 product=hypothetical protein

我在使用sed方面不是很熟練，因此我嘗試調整一些在這里和周圍找到的解決方案，但沒有成功。 如果解決方案分兩個步驟（一個用於ID，一個用於產品），也可以，那么我可以將兩個結果合並到一個文件中。

如果您能說明所用的正則表達式，將不勝感激。

到目前為止，我嘗試將問題一分為二（從ID出發）並嘗試：

grep -o 'ID=PROKKA_[0-9]{1,5}*'
sed 's/^ID=PROKKA[0-9]*;//g/
grep -Po 'ID="K[^"]*'

但當然他們都不起作用。 感謝您的幫助！

Answer 1

您可以使用grep -oE ：

grep -oE 'ID=PROKKA_[0-9]+|product=[^;:]+' file

ID=PROKKA_00001
product=hypothetical protein

如果要在同一行中顯示結果，請使用grep + paste ：

grep -oE 'ID=PROKKA_[0-9]+|product=[^;:]+' file | paste -s

從.gff文件中使用sed / awk / grep提取子字符串

問題描述

1 個解決方案

解決方案1
2 已采納 2018-07-16 14:28:53

從.gff文件中使用sed / awk / grep提取子字符串

問題描述

1 個解決方案

解決方案1 2 已采納 2018-07-16 14:28:53

解決方案1
2 已采納 2018-07-16 14:28:53