提取包含兩個模式的行

Question

我有一個包含幾行的文件，如下所示：

>header1
<pattern_1>CGGCGGGCAGATGGCCACCAACAACCAGAGCTCCCTGGCCGGGCCTCTTTTCCTGACGGCCGCCCCCACTGCCCCCACGACCGGCCCGTACAAC<pattern_2>
>header2
<pattern_1>CGGCGGGCAGATGGCCACCAACAACCAGAGCTCCCTGGCCTGCAATCACTACTCGTGTTTTGCCACCACTGCCCCCACGACCGGCACGTACAAC<pattern_2>
>header3
<pattern_1>ATGGCCACCAACAACCAGAGCTCCC
>header4
GACCGGCACGTACAACCTCCAGGAAATCGTGCCCGGCAGCGTGTGGATGGAGAGGGACGTG
>header5
TGCCCCCACGACCGGCACGTACAAC<pattern_2>

我想提取包含兩者的所有行，包括標題行。

我嘗試過使用grep，但它只提取序列行而不是標題行。

grep <pattern_1> | grep <pattern_2> input.fasta > output.fasta

如何在Linux中提取包含模式和標題的行？ 圖案可以出現在線條的任何位置。 不限於行的開頭或結尾。

預期產量：

>header1
<pattern_1>CGGCGGGCAGATGGCCACCAACAACCAGAGCTCCCTGGCCGGGCCTCTTTTCCTGACGGCCGCCCCCACTGCCCCCACGACCGGCCCGTACAAC<pattern_2>
>header2
<pattern_1>CGGCGGGCAGATGGCCACCAACAACCAGAGCTCCCTGGCCTGCAATCACTACTCGTGTTTTGCCACCACTGCCCCCACGACCGGCACGTACAAC<pattern_2>

Answer 1

$ grep -A 1 header[12] file
>header1
<pattern_1>CGGCGGGCAGATGGCCACCAACAACCAGAGCTCCCTGGCCGGGCCTCTTTTCCTGACGGCCGCCCCCACTGCCCCCACGACCGGCCCGTACAAC<pattern_2>
>header2
<pattern_1>CGGCGGGCAGATGGCCACCAACAACCAGAGCTCCCTGGCCTGCAATCACTACTCGTGTTTTGCCACCACTGCCCCCACGACCGGCACGTACAAC<pattern_2>

man grep ：

   -A NUM, --after-context=NUM
          Print  NUM  lines  of  trailing  context  after  matching lines.
          Places  a  line  containing  a  group  separator  (--)   between
          contiguous  groups  of  matches.  With the -o or --only-matching
          option, this has no effect and a warning is given.

   -B NUM, --before-context=NUM
          Print NUM  lines  of  leading  context  before  matching  lines.
          Places   a  line  containing  a  group  separator  (--)  between
          contiguous groups of matches.  With the  -o  or  --only-matching
          option, this has no effect and a warning is given.

grep -B 1 pattern_[12]也可以工作，但是樣本數據中有幾個pattern_1 ，所以......不是這次。

Answer 2

你可以用這樣的awk輕松做到這一點：

awk '/^>/{h=$0;next}
     /<pattern_1>/&&/<pattern_2>/{print h;print}' input.fasta > output.fasta

這里有一個sed解決方案，它也可以產生所需的輸出：

sed -n '/^>/{N;/<pattern_1>/{/<pattern_2>/p}}' input.fasta > output.fasta

如果可能存在多行記錄，您可以使用：

awk -v pat1='<pattern_1>' -v pat2='<pattern_2>' '
/^>/ {r=$0;p=0;next}
!p {r=r ORS $0;if(chk()){print r;p=1};next}
p

function chk(   tmp){
    tmp=gensub(/\n/,"","g",r)
    return (tmp~pat1&&tmp~pat2)
}' input.fasta > output.fasta

Answer 3

如果希望grep在匹配項周圍打印行，請在前面的行中使用-B標志，對匹配后的行使用-A，對匹配前后使用-C。

在你的情況下，grep -B 1似乎可以完成這項工作。

Answer 4

如果您的輸入文件與帖子中描述的完全相同，那么您可以使用：

grep -B1 '^<pattern_1>.*<pattern_2>$' input 
>header1
<pattern_1>CGGCGGGCAGATGGCCACCAACAACCAGAGCTCCCTGGCCGGGCCTCTTTTCCTGACGGCCGCCCCCACTGCCCCCACGACCGGCCCGTACAAC<pattern_2>
>header2
<pattern_1>CGGCGGGCAGATGGCCACCAACAACCAGAGCTCCCTGGCCTGCAATCACTACTCGTGTTTTGCCACCACTGCCCCCACGACCGGCACGTACAAC<pattern_2>

其中-B1將在匹配行的頂部顯示其前面的行。 使用的正則表達式基於以下假設：您的2個模式在行的開頭和結尾處按照確切的順序排列。 如果不是這種情況：使用'.*<pattern_1>.*<pattern_2>.*' 。 最后但並非最不重要的是，如果不總是遵守2個模式的順序，那么您可以使用： '^.*<pattern_1>.*<pattern_2>.*$\\|^.*<pattern_2>.*<pattern_1>.*$'

在以下輸入文件中 ：

cat input
>header1
<pattern_1>CGGCGGGCAGATGGCCACCAACAACCAGAGCTCCCTGGCCGGGCCTCTTTTCCTGACGGCCGCCCCCACTGCCCCCACGACCGGCCCGTACAAC<pattern_2>
>header2
<pattern_1>CGGCGGGCAGATGGCCACCAACAACCAGAGCTCCCTGGCCTGCAATCACTACTCGTGTTTTGCCACCACTGCCCCCACGACCGGCACGTACAAC<pattern_2>
>header2b
<pattern_2>CGGCGGGCAGATGGCCACCAACAACCAGAGCTCCCTGGCCTGCAATCACTACTCGTGTTTTGCCACCACTGCCCCCACGACCGGCACGTACAAC<pattern_1>
>header3
<pattern_1>ATGGCCACCAACAACCAGAGCTCCC
>header4
GACCGGCACGTACAACCTCCAGGAAATCGTGCCCGGCAGCGTGTGGATGGAGAGGGACGTG
>header5
TGCCCCCACGACCGGCACGTACAAC<pattern_2>

輸出：

grep -B1 '^.*<pattern_1>.*<pattern_2>.*$\|^.*<pattern_2>.*<pattern_1>.*$' input 
>header1
<pattern_1>CGGCGGGCAGATGGCCACCAACAACCAGAGCTCCCTGGCCGGGCCTCTTTTCCTGACGGCCGCCCCCACTGCCCCCACGACCGGCCCGTACAAC<pattern_2>
>header2
<pattern_1>CGGCGGGCAGATGGCCACCAACAACCAGAGCTCCCTGGCCTGCAATCACTACTCGTGTTTTGCCACCACTGCCCCCACGACCGGCACGTACAAC<pattern_2>
>header2b
<pattern_2>CGGCGGGCAGATGGCCACCAACAACCAGAGCTCCCTGGCCTGCAATCACTACTCGTGTTTTGCCACCACTGCCCCCACGACCGGCACGTACAAC<pattern_1>

Answer 5

您可能對BioAwk感興趣，它是awk的改編版本，經過調整可以處理fasta文件

bioawk -c fastx -v seq1="pattern1" -v seq2="pattern2" \
       '($seq ~ seq1) && ($seq ~ seq2) { print ">"$name; print $seq }' file.fasta

如果你想在開頭的seq1和在結尾的seq2 ，你可以將它改為：

bioawk -c fastx -v seq1="pattern1" -v seq2="pattern2" \
       '($seq ~ "^"seq1) && ($seq ~ seq2"$") { print ">"$name; print $seq }' file.fasta

這對於處理fasta文件非常實用，因為序列通常分布在多行上。 上面的代碼很容易處理這個，因為變量$seq包含完整的序列。

如果您不想安裝BioAwk，可以使用以下方法處理FASTA文件。 它將允許多行序列並執行以下操作：

一次讀取一條記錄（假設標題中沒有> ，第一個字符除外）
從記錄中提取標題並將其存儲在name （不是真的需要）
將完整序列合並為單個字符串，刪除所有換行符和空格。 這可確保在模式分割為多pattern2搜索pattern1或pattern2不會失敗。
如果找到匹配項，則打印記錄。

以下awk執行請求：

awk -v seq1="pattern1" -v seq2="pattern2" \
    'BEGIN{RS=">"; ORS=""; FS="\n"}
     { seq="";for(i=2;i<=NF;++i) seq=seq""$i; gsub(/[^a-zA-Z0-9]/,"",seq) }
     (seq ~ seq1 && seq ~ seq2){print ">" $0}' file.fasta

如果記錄頭包含不在行開頭的其他>字符，則必須采用稍微不同的方法（除非使用GNU awk）

awk -v seq1="pattern1" -v seq2="pattern2" \
    '/^>/ && (seq ~ seq1 && seq ~ seq2) {
         print name
         for(i=0;i<n;i++) print aseq[i]
     }
     /^>/ { seq=""; delete aseq; n=0; name=$0; next }
     { aseq[n++] = $0; seq=seq""$0; sub(/[^a-zA-Z0-9]*$/,"",seq) }
     END { if (seq ~ seq1 && seq ~ seq2) {
              print name
              for(i=0;i<n;i++) print aseq[i]
            }
     }' file.fasta

注意：我們在這里使用sub ，以防在fasta文件中引入意外字符（例如，空格/制表符或CR （ \\r ））

注意： BioAwk基於Brian Kernighan的awk ，其由Al Aho，Brian Kernighan和Peter Weinberger（Addison-Wesley，1988，ISBN 0-201-07981-X）的“The AWK Programming Language”中記載。 我不確定這個版本是否與POSIX兼容。

提取包含兩個模式的行

問題描述

5 個解決方案

解決方案1
3 2018-12-06 22:47:24

解決方案2
3 2018-12-06 23:02:21

解決方案3
1 2018-12-06 22:46:46

解決方案4
1 2018-12-07 00:56:08

解決方案5
1 已采納 2018-12-07 11:31:28

提取包含兩個模式的行

問題描述

5 個解決方案

解決方案1 3 2018-12-06 22:47:24

解決方案2 3 2018-12-06 23:02:21

解決方案3 1 2018-12-06 22:46:46

解決方案4 1 2018-12-07 00:56:08

解決方案5 1 已采納 2018-12-07 11:31:28

解決方案1
3 2018-12-06 22:47:24

解決方案2
3 2018-12-06 23:02:21

解決方案3
1 2018-12-06 22:46:46

解決方案4
1 2018-12-07 00:56:08

解決方案5
1 已采納 2018-12-07 11:31:28