Perl正则表达式匹配“>”

Question

This is how data is arranged in my file. 这就是数据在我的文件中的排列方式。

>Contig1
TGGCACCTTCGACAGTTGCTCCCTCCTGGGTGGGGGCCGTCTGACCTCGCTGTACTCCT
>Contig2
GGGCCTTGGGAAGCGCAGGTGCCGAGAACTTGGCTAGAGCGGTAGACAATGCGGTTCGTG
AAAAGAGCAACTTTAAATACTTGTACGACCTCAACCAGCCAGTCAAAGAGAAAATCGAG
>NODE_105957_length_443_cov_1.000000
TCAGAAGTTAATGCAATCTGGTCCATTAAGTAAATGGGTATCATGGTACATAAACTAAAA
GCACAGAACATGGATTATTTTCCCAATTTTAACTTTCCTAACCATTTTTATCTCTCTCAA
TAACTTCCACAGTAGTTTTTATTCGTCTCAATAACTTTATTAAAAGGGATCCCTCTATCC
CCAGAATTCAGTAGCTGCATACGACTTTCCTGTCACTAGAGATCCCTCAGATGTCGGTAG
TGCATTCATCTTAAGTGATAAATCAAATGTTAGTCAAGTTAGGAAGTGAGAATTGATACA
GAATTTCTACTTCAATACTAGCTATCCCAAAATGGTCATTGACGATTTATTTTTTTCCTA
CCAGCATATTCTTTTCTAGTATTTCAGATCTAGTGACTCAGAACTAGGACAATCATAAAT
TTGAAGGGAACCTTAAGTCTTTTTTCATGCTGAGACTGCCAAG
>NODE_105950_length_95_cov_1.000000
TCAGGTCCTACTTCATTTGTAAGGAAAACTGACAGGTAATTCAGTGGGACAGAATACCAT
GTGAAGAGTTTCCTCTCACCTGAGAGGAGACTTTTTGATGATGATGATGATCAAT

Can you please advice me on how to extract the sequences ie the lines with just the A,T,G,C with a newline between each successive set of sequences. 您能建议我如何提取序列，即仅在A，T，G，C的行中提取序列的每个连续序列之间的换行符。 This is the code I have thus far 这是我到目前为止的代码

#!/usr/bin/perl

print "Enter the first filename\n";
$filename = <>;

print "Enter the output file for ids\n";
$filename1 = <>;

print "Enter the output file for sequences\n";
$filename2 = <>;
my $first = ">";
open(FILE, $filename) or die "Could not read from $filename, program halting.";
open(FIL, '>', $filename1) or die "Could not read from $filename1, program halting.";
open(FILES, '>', $filename2) or die "Could not read from $filename2, program halting.";
while(my $line = <FILE>)
{
    if ($line =~ m//s) 
        {
            print FILES $line, "\n";
        } 
    if ($line =~ m/^>/)
        {
            print FIL $line;
        }
}
close FILE;
close FIL;
close FILES;

which is just a basic regular, simple perl program to match patterns. 这只是一个基本的常规，简单的perl程序来匹配模式。 Any help is appreciated. 任何帮助表示赞赏。

Answer 1

you can use this regex 您可以使用此正则表达式

/^[ATGC]+$/gm

demo here https://regex101.com/r/rQ9gN4/2 演示在这里https://regex101.com/r/rQ9gN4/2

if you want to extract 如果要提取

NODE_105957_length_443_cov_1.000000 NODE_105950_length_95_cov_1.000000 NODE_105957_length_443_cov_1.000000 NODE_105950_length_95_cov_1.000000

negate the above regex 否定上述正则表达式

/^([^ATGC]+)$/gm

Answer 2

Have a try with: 尝试一下：

#!/usr/bin/perl

# ALLWAYS
use strict;
use warnings;

print "Enter the first filename\n";
chomp (my $filename = <>); # remove the line break

print "Enter the output file for ids\n";
chomp (my $filename1 = <>); # remove the line break

print "Enter the output file for sequences\n";
chomp (my $filename1 = <>); # remove the line break

# use three args open and show the reason when it fails
open(my $FILE,  '<', $filename)  or die "Unable to open '$filename', $!";
open(my $FILE1, '>', $filename1) or die "Unable to open '$filename1', $!";
open(my $FILE2, '>', $filename2) or die "Unable to open '$filename2', $!";

while(my $line = <$FILE>) {
    chomp($line);   # remove line break
    if ($line =~ /^>/) {
        print $FILE1 $line,"\n";
        # add a line break to filename2 unless we are at first line.
        print $FILE2 "\n" unless $. < 2;
    }
    else {
        print $FILE2 $line;
    }
}

Perl正则表达式匹配“>”

问题描述

2 个解决方案

解决方案1
2 2015-03-27 08:57:50

解决方案2
1 已采纳 2015-03-27 10:17:16

Perl正则表达式匹配“&gt;”

问题描述

2 个解决方案

解决方案1 2 2015-03-27 08:57:50

解决方案2 1 已采纳 2015-03-27 10:17:16

Perl正则表达式匹配“>”

解决方案1
2 2015-03-27 08:57:50

解决方案2
1 已采纳 2015-03-27 10:17:16